《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【泥沙龙笔记:再谈知识图谱和知识习得】 精选

已有 4448 次阅读 2016-1-3 19:31 |个人分类:立委科普|系统分类:科普集锦|关键词:知识习得,知识图谱,本体知识,信息抽取,信息融合,聚类,IE,clustering| 信息抽取, 知识图谱, 信息融合, 本体知识, 知识习得

雷: 知识获得与知识图谱的关系是怎么样的?获得的知识以图谱表示?
我: 知识获得或习得(acquisition),通常特指本体知识,与知识图谱没直接关系。信息抽取(IE)和挖掘 (核心是信息融合 fusion)才导致知识图谱。这不是我的一家之言,而是有相当的共识。由于知识图谱(knowledge graph)的爆红,不排除现在有人把 本体知识(ontology)习得也纳入了这个筐。即便如此,在这个筐里面区分这两种知识是十分重要的。ontology 是本体、元知识,有相当的稳定性和永恒性质。而世界上存在和发生的流动性关系和事件却不是本体元知识,而是一种情报。本体不具有情报的价值。核心基础技术也不同,本体主要靠聚类(clustering)技术,机器学习比较擅长。而图谱主要靠抽取,parsing 是核武器。当然 parsing 也可以帮助提高聚类质量,林德康当年的主要成就就在这方面的研究。
雷:本体是专业词典的计算机版本,词典不是动的知识。
我: 是的。词典的延伸就是百科,百科可以为情报服务,它本身不是情报。(当然,现在的wiki百科里面也开始包括动态新闻事件了,而且有人实时更新,开始打破两种知识间的界限。)具体的entity 所牵涉到的关系、事件或评价,才是情报,表达为图谱,存在库里。做本体知识的习得,大多用关键词 加上个别的一些 patterns就可以了。 而林德康当年的研究深入了一步,他用他自己写的 parser 作为支撑,做了结构基础上的本体聚类。
阿: 已发生的事件都不是情报。
我: 那你说的是另一个层次的情报含义了。广义的情报含义是包含发生了的事件的,因为发生了的事件对于未闻者当然具有情报价值,尤其在大数据年代,很多发生了的事件情报被淹没在数据海洋,需要抽取挖掘才好满足客户的情报需求。
雷: 本体是表示知识的框架。定义好class后,程序是实例化。
我: 那个程序是类似检索的工具,cyc 的程序除了检索,还有推理。
雷:在面向对象的计算机实现中,微软的Windows是范例。Windows被定义为一系列class。以后的基于Windows的系统都是这些class的展开,实例化。
我: 那是自然的。本体本身就是个概念class的体系(hierarchy)。图谱的基点是个体,而本体体系的基点则是概念 class。因为针对的是 class,所以本体没有情报性。对于个体,情报的价值才凸显。本体知识在支持情报挖掘的过程中,才会从 class 实体化并可继承这个class的taxonomy,譬如,当产品这个 class 实体化为 iPhone 6S 的时候,系统会继承它的上位概念 Product --> PhysicalObject -->Concrete --> Entity。但多数挖掘没有这样的本体知识的支持,也可以凑合。
雷: 人是 class,立委是人的实体化。
我: 是啊,关于立委这家伙的所有关系和事迹的抽取挖掘,构成知识图谱的一个节点,但是这与人的本体知识习得无关。这是抽取,不是习得。这个最近论过,见博文:《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》
雷: 怎么无关法?立委的种种事迹都是人的种种属性。本体知识是静态的,是用来表达知识的。
我: 关系是这样的:习得不需要IE的支持,IE可以用习得的知识做一点支持,也可以绕过去。
我: 这个是。IE是动态的。
我: 没有本体习得从知识图谱去概括的,没有这种做法。虽然理论上可以说 “立委的种种事迹都是人的种种属性”,但从这些抽取出来的个体事迹去习得ontology 不是正道,没什么效果,也无必要。两种知识层次不同,手段也不同,不好混谈。
雷: 具体点,本体可以用rdf表示,知识也是用rdf表示。
我: 本体是苦功夫,有学术价值,但没太大的直接实用价值,需要圣人去做,譬如 Lenat 和董老师这样的语义大师 (《语义三巨人》)。图谱不然,图谱是直接为应用服务的,是知识产品的必要后盾。
雷: 图谱是本体的实例化。
我: 这种说法属于宇宙真理,没有多大意义,没有实践指导作用,还容易误导。一个可能的误导就是,以为本体知识习得了,就可以在上面实体化而做图谱了。不是这样的。第一,抽取挖掘图谱大多可以绕过本体(绕过去包含把ontology的繁琐体系简化为零星的features来用)。第二,从本体到图谱,还有十万八千里,不是一个听上去很简单的 “实体化” 过程 。知道了立委是个语言学家及其 taxonomy(人-->生物-->物体-->实体),不经过具体的抽取挖掘,还是无法“实体化”出立委的图谱来。本体知识(包括常识)对于图谱工作,总体来说,既不必要,更不充分。
彭: 谢谢伟哥,原来对知识图谱一知半解,现在提升到一知大半解了。
我: 举个例子说图谱吧,就跟一个履历表差不多。无数个互相链接的履历库就是关于求职者的知识图谱。见博文:知识图谱的先行:从 Julian Hill 说起》。
彭: 谢谢,经常从略知一二的窃喜到只知一二的窘迫。

雷: 表面上没有本体,但是follow了你心中的本体

洪:
厚积薄发得机缘,
伟爷不靠蓝药丸。
每日自语或群侃,
转手滚烫博客篇。
我: @洪爷 这话,倒是话糙理不糙


【相关】

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【新智元笔记:深度 parsing 的逻辑化 】 

知识图谱的先行:从 Julian Hill 说起

 《语义三巨人》

【立委科普:信息抽取】

【立委科普:自然语言理解当然是文法为主,常识为辅】

【置顶:立委科学网博客NLP博文一览(定期更新版)】 







http://blog.sciencenet.cn/blog-362400-947824.html

上一篇:《新智元:挖掘你的诗人气质,祝你新年快乐》
下一篇:【立委科普:本体知识系统的一些历史掌故和背景】

6 陆泽橼 徐令予 武夷山 黄永义 谢平 章成志

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-17 20:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部