博文

《泥沙龙笔记：怎样满足用户的信息需求》精选

已有 4205 次阅读 2015-12-15 07:25 |个人分类:立委科普|系统分类:教学心得| 推荐, 搜索, 浏览, 信息需求

我: 在 NLP 项目中，推理用得不多，用场似乎不大。NLP的应用，譬如知识图谱，可以用到一些，但一般有一两层的推理就很不错了。

有两个参照点。一个是 cyc，它是以常识推理、形式逻辑著称的，结果用起来就很难，没成气候。原因也可以理解。自然语言的本性是不大逻辑，推理性的东西一与自然语言结合，总是处处别扭。举个例子，考察我们日常用语中 “与或非” 的对应的表达法，就会发现，自然语言与逻辑语言之间的显著差别。有些逻辑上重要的区别，自然语言中不做区分，或者觉得模糊了也不影响语义。自然语言中的 sublanguage 当然有逻辑性强的，譬如，数学教科书。老严做过这个研究，他做过几何题的自然语言 parsing，有发言权。但那类子语言不是自然语言主流，其逻辑性是领域逼迫出来的。

第二个参照点是 Facebook 的所谓 graph search，当时推出的时候蛮隆重。用过一阵子后有两个体会。一个是，大部分人使用这个 search 也只用到图谱的最多两层的 search，虽然它内部应该可以支持多层的推理性结果。这说明，实际应用的时候对推理没有深层次的要求，深了也用不上，人也不会用。这个观察对于一般的知识图谱应该具有普遍性。不管用什么接口，只要是搜索类的应用，人对推理没有深层的要求，可能是局限于人的短期记忆或类似的限定吧。知识图谱的搜索类应用是如此，知识图谱的浏览式应用则是另一种，就是白老师所谓顺藤摸瓜，可以一路追踪下去，跑得很远。顺便一提，搜索和浏览是满足人类信息需求的两个主要方式。

Facebook 的 graph search 的第二个观察体会就是，用了一阵子以后很快发现，它背后的逻辑链条很清晰，容易仿制，感觉没有什么门槛。同时感觉有很多可以利用NLP去提升它的余地，可惜他们这方面进展不大。

丁: 对，“搜索和浏览是满足人类信息需求的两个主要方式”。

我: 是啊，谷歌推出知识图谱帮助搜索 entity 就是结合了搜索和浏览，来满足信息需求的范例。而这一点我们十多年前就看清了，在政府项目中做了方方面面的论述，并实现在政府项目的系统中。

白: 这是被动满足，主动满足不是这样的。主动满足讲协同推荐，讲感应式获取信息需求。

我: 搜索是主动的有意识，浏览是主动的无意识或下意识。

白: 我说的不是用户主动，是系统主动。

我: 我们常讲的是，在我不知道我的问题的时候，我的需求也要得到满足。我不知道要 search 什么，但是我隐约有个需求。这种需求满足往往在似乎是随意的浏览中完成。当然，也有在被推荐的信息中得到满足的。系统主动的一个重要方向就是推荐和其他个性化服务。因此一个系统把搜索、推荐和浏览有机结合是很有益的。譬如从搜索开始，进入浏览，然后再浏览到某个点的时候，又变成了搜索，这中间也会有 alerts 来推荐相关的信息。结果就是系统跟着人的兴趣走。

浏览成就了雅虎，搜索成就了谷歌。随着信息的爆炸，搜索作为主流取代浏览是必然的。但最终还是二者的融合。

白: 还有一种“类比”，就是与此类似的页面。看似没有需求，其实需求不弱。看似简单，但是和去重是矛盾的。如何既去重又能检索相似页面，不简单。

我: 因此知识图谱这种内在的信息连接，就成为二者连接的利器。

【相关】

《知识图谱的先行：从 Julian Hill 说起》