博文

【泥沙龙笔记：再谈知识图谱和知识习得】精选

已有 6651 次阅读 2016-1-3 19:31 |个人分类:立委科普|系统分类:科普集锦| 信息抽取, 知识图谱, 信息融合, 本体知识, 知识习得

雷: 知识获得与知识图谱的关系是怎么样的？获得的知识以图谱表示？

我: 知识获得或习得（acquisition），通常特指本体知识，与知识图谱没直接关系。信息抽取（IE）和挖掘 (核心是信息融合 fusion）才导致知识图谱。这不是我的一家之言，而是有相当的共识。由于知识图谱（knowledge graph）的爆红，不排除现在有人把本体知识（ontology）习得也纳入了这个筐。即便如此，在这个筐里面区分这两种知识是十分重要的。ontology 是本体、元知识，有相当的稳定性和永恒性质。而世界上存在和发生的流动性关系和事件却不是本体元知识，而是一种情报。本体不具有情报的价值。核心基础技术也不同，本体主要靠聚类（clustering）技术，机器学习比较擅长。而图谱主要靠抽取，parsing 是核武器。当然 parsing 也可以帮助提高聚类质量，林德康当年的主要成就就在这方面的研究。

雷：本体是专业词典的计算机版本，词典不是动的知识。

我: 是的。词典的延伸就是百科，百科可以为情报服务，它本身不是情报。（当然，现在的wiki百科里面也开始包括动态新闻事件了，而且有人实时更新，开始打破两种知识间的界限。）具体的entity 所牵涉到的关系、事件或评价，才是情报，表达为图谱，存在库里。做本体知识的习得，大多用关键词加上个别的一些 patterns就可以了。而林德康当年的研究深入了一步，他用他自己写的 parser 作为支撑，做了结构基础上的本体聚类。

阿: 已发生的事件都不是情报。

我: 那你说的是另一个层次的情报含义了。广义的情报含义是包含发生了的事件的，因为发生了的事件对于未闻者当然具有情报价值，尤其在大数据年代，很多发生了的事件情报被淹没在数据海洋，需要抽取挖掘才好满足客户的情报需求。

雷: 本体是表示知识的框架。定义好class后，程序是实例化。

我: 那个程序是类似检索的工具，cyc 的程序除了检索，还有推理。

雷：在面向对象的计算机实现中，微软的Windows是范例。Windows被定义为一系列class。以后的基于Windows的系统都是这些class的展开，实例化。

我: 那是自然的。本体本身就是个概念class的体系（hierarchy）。图谱的基点是个体，而本体体系的基点则是概念 class。因为针对的是 class，所以本体没有情报性。对于个体，情报的价值才凸显。本体知识在支持情报挖掘的过程中，才会从 class 实体化并可继承这个class的taxonomy，譬如，当产品这个 class 实体化为 iPhone 6S 的时候，系统会继承它的上位概念 Product --> PhysicalObject -->Concrete --> Entity。但多数挖掘没有这样的本体知识的支持，也可以凑合。

雷: 人是 class，立委是人的实体化。

我: 是啊，关于立委这家伙的所有关系和事迹的抽取挖掘，构成知识图谱的一个节点，但是这与人的本体知识习得无关。这是抽取，不是习得。这个最近论过，见博文：《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》。

雷: 怎么无关法？立委的种种事迹都是人的种种属性。本体知识是静态的，是用来表达知识的。

我: 关系是这样的：习得不需要IE的支持，IE可以用习得的知识做一点支持，也可以绕过去。

我: 这个是。IE是动态的。

我: 没有本体习得从知识图谱去概括的，没有这种做法。虽然理论上可以说 “立委的种种事迹都是人的种种属性”，但从这些抽取出来的个体事迹去习得ontology 不是正道，没什么效果，也无必要。两种知识层次不同，手段也不同，不好混谈。

雷: 具体点，本体可以用rdf表示，知识也是用rdf表示。

我: 本体是苦功夫，有学术价值，但没太大的直接实用价值，需要圣人去做，譬如 Lenat 和董老师这样的语义大师 (《语义三巨人》)。图谱不然，图谱是直接为应用服务的，是知识产品的必要后盾。

雷: 图谱是本体的实例化。

我: 这种说法属于宇宙真理，没有多大意义，没有实践指导作用，还容易误导。一个可能的误导就是，以为本体知识习得了，就可以在上面实体化而做图谱了。不是这样的。第一，抽取挖掘图谱大多可以绕过本体（绕过去包含把ontology的繁琐体系简化为零星的features来用）。第二，从本体到图谱，还有十万八千里，不是一个听上去很简单的 “实体化” 过程。知道了立委是个语言学家及其 taxonomy（人-->生物-->物体-->实体），不经过具体的抽取挖掘，还是无法“实体化”出立委的图谱来。本体知识（包括常识）对于图谱工作，总体来说，既不必要，更不充分。

彭: 谢谢伟哥，原来对知识图谱一知半解，现在提升到一知大半解了。

我: 举个例子说图谱吧，就跟一个履历表差不多。无数个互相链接的履历库就是关于求职者的知识图谱。见博文：《知识图谱的先行：从 Julian Hill 说起》。

彭: 谢谢，经常从略知一二的窃喜到只知一二的窘迫。

雷: 表面上没有本体，但是follow了你心中的本体

洪:

厚积薄发得机缘，

伟爷不靠蓝药丸。

每日自语或群侃，

转手滚烫博客篇。

我: @洪爷这话，倒是话糙理不糙

【相关】

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》