【泥沙龙笔记:再谈知识图谱和知识习得】
精选
已有 7000 次阅读
2016-1-3 19:31
|个人分类:立委科普|系统分类:科普集锦|
信息抽取, 知识图谱, 信息融合, 本体知识, 知识习得
雷: 知识获得与知识图谱的关系是怎么样的?获得的知识以图谱表示?
我: 知识获得或习得(acquisition),通常特指本体知识,与知识图谱没直接关系。信息抽取(IE)和挖掘 (核心是信息融合 fusion)才导致知识图谱。这不是我的一家之言,而是有相当的共识。由于知识图谱(knowledge graph)的爆红,不排除现在有人把 本体知识(ontology)习得也纳入了这个筐。即便如此,在这个筐里面区分这两种知识是十分重要的。ontology 是本体、元知识,有相当的稳定性和永恒性质。而世界上存在和发生的流动性关系和事件却不是本体元知识,而是一种情报。本体不具有情报的价值。核心基础技术也不同,本体主要靠聚类(clustering)技术,机器学习比较擅长。而图谱主要靠抽取,parsing 是核武器。当然 parsing 也可以帮助提高聚类质量,林德康当年的主要成就就在这方面的研究。
雷:本体是专业词典的计算机版本,词典不是动的知识。
我: 是的。词典的延伸就是百科,百科可以为情报服务,它本身不是情报。(当然,现在的wiki百科里面也开始包括动态新闻事件了,而且有人实时更新,开始打破两种知识间的界限。)具体的entity 所牵涉到的关系、事件或评价,才是情报,表达为图谱,存在库里。做本体知识的习得,大多用关键词 加上个别的一些 patterns就可以了。 而林德康当年的研究深入了一步,他用他自己写的 parser 作为支撑,做了结构基础上的本体聚类。
阿: 已发生的事件都不是情报。
我: 那你说的是另一个层次的情报含义了。广义的情报含义是包含发生了的事件的,因为发生了的事件对于未闻者当然具有情报价值,尤其在大数据年代,很多发生了的事件情报被淹没在数据海洋,需要抽取挖掘才好满足客户的情报需求。
雷: 本体是表示知识的框架。定义好class后,程序是实例化。
我: 那个程序是类似检索的工具,cyc 的程序除了检索,还有推理。
雷:在面向对象的计算机实现中,微软的Windows是范例。Windows被定义为一系列class。以后的基于Windows的系统都是这些class的展开,实例化。
我: 那是自然的。本体本身就是个概念class的体系(hierarchy)。图谱的基点是个体,而本体体系的基点则是概念 class。因为针对的是 class,所以本体没有情报性。对于个体,情报的价值才凸显。本体知识在支持情报挖掘的过程中,才会从 class 实体化并可继承这个class的taxonomy,譬如,当产品这个 class 实体化为 iPhone 6S 的时候,系统会继承它的上位概念 Product --> PhysicalObject -->Concrete --> Entity。但多数挖掘没有这样的本体知识的支持,也可以凑合。
雷: 人是 class,立委是人的实体化。
雷: 怎么无关法?立委的种种事迹都是人的种种属性。本体知识是静态的,是用来表达知识的。
我: 关系是这样的:习得不需要IE的支持,IE可以用习得的知识做一点支持,也可以绕过去。
我: 这个是。IE是动态的。
我: 没有本体习得从知识图谱去概括的,没有这种做法。虽然理论上可以说 “立委的种种事迹都是人的种种属性”,但从这些抽取出来的个体事迹去习得ontology 不是正道,没什么效果,也无必要。两种知识层次不同,手段也不同,不好混谈。
雷: 具体点,本体可以用rdf表示,知识也是用rdf表示。
我: 本体是苦功夫,有学术价值,但没太大的直接实用价值,需要圣人去做,譬如 Lenat 和董老师这样的语义大师 (
《语义三巨人》)。图谱不然,图谱是直接为应用服务的,是知识产品的必要后盾。雷: 图谱是本体的实例化。
我: 这种说法属于宇宙真理,没有多大意义,没有实践指导作用,还容易误导。一个可能的误导就是,以为本体知识习得了,就可以在上面实体化而做图谱了。不是这样的。第一,抽取挖掘图谱大多可以绕过本体(绕过去包含把ontology的繁琐体系简化为零星的features来用)。第二,从本体到图谱,还有十万八千里,不是一个听上去很简单的 “实体化” 过程 。知道了立委是个语言学家及其 taxonomy(人-->生物-->物体-->实体),不经过具体的抽取挖掘,还是无法“实体化”出立委的图谱来。本体知识(包括常识)对于图谱工作,总体来说,既不必要,更不充分。
https://blog.sciencenet.cn/blog-362400-947824.html
上一篇:
《新智元:挖掘你的诗人气质,祝你新年快乐》下一篇:
【立委科普:本体知识系统的一些历史掌故和背景】