我: 在 NLP 项目中,推理用得不多,用场似乎不大。NLP的应用,譬如知识图谱,可以用到一些,但一般有一两层的推理就很不错了。
有两个参照点。一个是 cyc,它是以常识推理、形式逻辑著称的,结果用起来就很难,没成气候。原因也可以理解。自然语言的本性是不大逻辑,推理性的东西一与自然语言结合,总是处处别扭。举个例子,考察我们日常用语中 “与或非” 的对应的表达法,就会发现,自然语言与逻辑语言之间的显著差别。有些逻辑上重要的区别,自然语言中不做区分,或者觉得模糊了也不影响语义。自然语言中的 sublanguage 当然有逻辑性强的,譬如,数学教科书。老严做过这个研究,他做过几何题的自然语言 parsing,有发言权。但那类子语言不是自然语言主流,其逻辑性是领域逼迫出来的。
第二个参照点是 Facebook 的所谓 graph search,当时推出的时候蛮隆重。用过一阵子后有两个体会。一个是,大部分人使用这个 search 也只用到图谱的最多两层的 search,虽然它内部应该可以支持多层的推理性结果。这说明,实际应用的时候对推理没有深层次的要求,深了也用不上,人也不会用。这个观察对于一般的知识图谱应该具有普遍性。不管用什么接口,只要是搜索类的应用,人对推理没有深层的要求,可能是局限于人的短期记忆或类似的限定吧。知识图谱的搜索类应用是如此,知识图谱的浏览式应用则是另一种,就是白老师所谓顺藤摸瓜,可以一路追踪下去,跑得很远。顺便一提,搜索和浏览是满足人类信息需求的两个主要方式。
Facebook 的 graph search 的第二个观察体会就是,用了一阵子以后很快发现,它背后的逻辑链条很清晰,容易仿制,感觉没有什么门槛。同时感觉有很多可以利用NLP去提升它的余地,可惜他们这方面进展不大。
丁: 对,“搜索和浏览是满足人类信息需求的两个主要方式”。
我: 是啊,谷歌推出知识图谱帮助搜索 entity 就是结合了搜索和浏览,来满足信息需求的范例。而这一点我们十多年前就看清了,在政府项目中做了方方面面的论述,并实现在政府项目的系统中。
白: 这是被动满足,主动满足不是这样的。主动满足讲协同推荐,讲感应式获取信息需求。
我: 搜索是主动的有意识,浏览是主动的无意识或下意识。
白: 我说的不是用户主动,是系统主动。
我: 我们常讲的是,在我不知道我的问题的时候,我的需求也要得到满足。我不知道要 search 什么,但是我隐约有个需求。这种需求满足往往在似乎是随意的浏览中完成。当然,也有在被推荐的信息中得到满足的。系统主动的一个重要方向就是推荐和其他个性化服务。因此一个系统把搜索、推荐和浏览有机结合是很有益的。譬如从搜索开始,进入浏览,然后再浏览到某个点的时候,又变成了搜索,这中间也会有 alerts 来推荐相关的信息。结果就是系统跟着人的兴趣走。
浏览成就了雅虎,搜索成就了谷歌。随着信息的爆炸,搜索作为主流取代浏览是必然的。但最终还是二者的融合。
白: 还有一种“类比”,就是与此类似的页面。看似没有需求,其实需求不弱。看似简单,但是和去重是矛盾的。如何既去重又能检索相似页面,不简单。
我: 因此知识图谱这种内在的信息连接,就成为二者连接的利器。
【相关】
《知识图谱的先行:从 Julian Hill 说起 》
《泥沙龙笔记:搜索和知识图谱的话题》
分享【新智元沙龙笔记:谈不完的知识图谱】
前知识图谱钩沉: 信息体理论
前知识图谱钩沉: 信息抽取引擎的架构
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-943435.html
上一篇:
《新智元笔记:微软小冰,QA 和 AI,历史与展望(4)》下一篇:
《泥沙龙笔记:连续、离散,模块化和接口》