博文

【立委科普：本体知识系统的一些历史掌故和背景】

已有 4944 次阅读 2016-1-4 02:11 |个人分类:立委科普|系统分类:科普集锦| WordNet, HowNet, 知网, 本体知识, 深层格

知识习得（knowledge acquisition）与知识图谱（抽取）的概念很多人混淆了（术语的命名有很大的偶然性），在隔壁群里科普了一番，也转到这里：

关于 acquisition，还可以发挥几句。

说这个工作应该是圣人的，而不是我们普罗业内人士都该做的，有几层意思，这里从发展历史和业内掌故的角度谈谈。首先，如果面对的是跨领域的 ontology 体系，这里面的学问门槛很高。一般人如我这样的工匠，根本就进不去。而且即便自以为有了一个逻辑自洽的比较合理的体系架构，里面的工作也繁难无比。

董振东老师开始有他的 HowNet 构想是 30 年前。我还清楚地记得，当时我们同在高立公司帮助做机器翻译，他是前辈（认真溯源的话，董老师开始是跟我的导师刘倬先生一起做MT，后来董老师自成一家，做出很多成就）。吃午饭闲聊的时候，董老师就开始跟我提到这个《知网》的构想。此前董老师有着多年丰富的机器翻译的实践经验，他先在军事科学院做了个开放应用型 MT prototype（记得叫 “科研一号”），后在中软进一步开发，做出来国内第一个大型的商品化MT系统“译星”。当时他说，在MT过程中感觉现在的形式化的知识资源不给力，特别是用到机器翻译的时候，所以下决心自己要做一个。

再说一下这个项目的国际学术背景。董老师做机器翻译用的是著名语义学家费尔默的深层格（deep case）语法框架，董老师做了适当改造，起名叫逻辑语义，他用这个框架作为机器翻译和转换的内部结构（中间语言），发表了几篇有相当影响的论文，证明这个表达足够深入，对于不同语系的语言之间翻译也很合适（董振东 - 逻辑语义及其在机译中的应用）。我当时也对深层格理论着迷，很信服董老师的工作（这个影响一直延续至今，这就是我一直强调深层 parsing 是 NLP 核武器的主要渊源）。可以说，逻辑语义（或深层逻辑句法的结构）表达，基本上满足了语言分析和机器翻译的语义结构性需要（当然后来费尔默本人还是没有停留在深层格，他进一步从语义向普遍语用进军，发展了 FrameNet 的体系，这是深层格深入发展的极其自然的趋向，也成为目前NLP语义研究的规范了，虽然实践中 FrameNet 其实不如深层格好掌握和使用，我的评语是它有学术价值，没有多少实用的意义：见《语义三巨人》）。但是语义解构（semantic decoding，就是我们说的 deep parsing）有了合适的树结构表达之后，只是解决了结构层面的语义关系，而语义本体的知识体系（ontology）没有跟上来。语义表达结构中的本体是什么，就是逻辑语义结构树的叶子上附着的语词概念所对应的内在知识链条，其中最主要的就是 ISA 的 taxonomy。这就是董老师感觉语义方面的资源还不得力的原因。

当年，WordNet 已经存在了，不过那套体系是心理学家主导的，有很多不对劲的地方。这种词典概念的体系是一个很苦的活儿，没人愿意做，也很少人有能力做，而且有能力了也愿意了，能坚持做下去，完成这个体系也不是常人可为。因此，虽然 WordNet 根本就不是为 NLP 或 MT 而设计的，然而，用无可用，大家做系统做到一定深度需要调用语义资源的时候，还是去用它，或者改造它来用（单单改造的工作就殊为不易）。到了董老师这样的学养和深度，他不愿意将就，他有自己的体系和自信。他要推到重来，按照自己的设计，做一个更适合机器翻译和NLP的ontology出来。这一做就是 30 年，迄今 HowNet 还在董老师父子手中不断完善中。这个世界因此而多了一个 ontology 体系，多了一个选项，这是我们大家的幸运。说这么多掌故，是要说，这本体知识体系不是一般人可以做的，但一般人可以从中受益。

既然学问的门槛高，为啥 ontology acquisition 成了 NLP 一个子领域呢，而且一度相当活跃？这要归功于机器学习的发展了。

这些基于词典或概念的知识体系的活儿，千头万绪，人做起来很繁很难，但从领域发展来说，正好是机器学习可以施展的地儿。关键词为基础的聚类（keyword clustering）是非监督的学习，基本上没有知识瓶颈，所以海阔凭鱼跃，正好可以拿这个来练手。根据某种语义距离（semantic distance）的定义来指导，机器学习确实可以做出来一个看上去很像 ontology 的词典知识库出来，这个进展令人振奋。本群林老师是这方面的顶级专家，他在这个子领域做了一系列开创性的工作，影响很大。不仅是关键词 clustering，林老师还做句法结构基础上的 clustering 的研究，结果更漂亮。

那么，一个问题就是，到底我们应该用人工几十年精雕细琢出来的本体知识资源，譬如 WordNet，HowNet（微软以前还有一个 MindNet），还是沿着林老师等研究的路子去机器学习出一个本体知识呢？这里面有一个主要的考量，就是 domain。

与本质是动态的知识图谱不同，本体知识及其概念体系具有语义的某种永恒性质，而且本质上是独立于语言的概念系统（当然有一个接口，从具体语言语词到概念的mapping是起点），这样看来，采纳大师的精雕细琢应该比较放心。又因为那是一个很少需要变动的知识源，只有专家的慢工细活才让人信得过。不管多么繁难，做成了，核心部分就稳定不变了，人工还是值得的。事实上，机器学习出来的系统，为了验证体系设计和算法的正确性，最终也还是要 mapping 到人工的知识体系去，来做 benchmarks，看靠谱不靠谱。因此，有了 WordNet，尤其是有了 HowNet，这些几十年积累的专家手工系统，从道理上，基本没有机器学习出场的理由，因为总体而言，机器永远做不到人工那样精细。

但是有一条是人工基本无能为力的，那就是对于领域和数据源的自适应。WordNet 和 HowNet 做了几十年，是独立于领域的。如果要进入几百上千个领域，光靠人工，是很难完成本体知识的领域化的（主要领域为了自用，也零星做了自己的 ontologies，各个体系设计思想不一，用场也不同）。很多领域概念词条，根本就没有进入通用本体知识的视野。这时候，lexical ontology acquisition 作为机器学习的一个应用，就站住脚了。不仅可以进入领域，自动生成领域词典及其概念体系，而且理论上讲，还可以自动适应特定的数据源或语料库：既可以增加概念的专业语汇（vocabulary），也可以自动地帮助消歧，把本领域或本数据源不用或罕见的义项排除出去。

这一讲就到此吧，最后总结两句。作为学问，ontology 及其 acquisition 很有意思。但是，实际上的使用，到目前为止还很有限。将来随着领域化不断深入，也许需要用到的越来越多，但迄今多数NLP或IE系统对本体知识的利用大多是在凑合。多数NLP践行者，应用开发者，也的确不大需要蹚这趟浑水，因为任何事情一涉及语义体系，很容易成为一锅粥，很容易陷入泥淖出不来。不管是凑合，还是拿来就用，都比自己陷入泥淖强。本体的 acquisition 依旧是小众的研究方向，与知识图谱的信息抽取和挖掘完全不可同日而语。后者是立竿见影的，是随时需要的，是几乎可以任意定义的，是知识产品的直接需求，有无限的应用可能性。也因此当前火爆的是知识图谱，而不是知识习得。知识图谱是应用性目标，而知识习得的本体词典只是帮助NLP和图谱的一种语义资源。

【新智元微群沙龙首发】

朱: 董老师在HowNet中采用基于义原描述方式，引入了常识性知识，这对于词义消岐和译文选取非常有用，也是一大特色。通过识别与上下文存在语义巧合，是传统方法基本指导思想。之前董老师跟我说过两点，他说之前自己也不知道HowNet是本体，别人都这么说才知道的。另外董老师一直想利用HowNet来计算词汇语义相关性，同时获取某词的其它相关词汇，这工作对MT和文本分析很重要。告诉我说很想做好它，但看来只基于HowNet中义原计算还是有问题，太粗了。我们讨论过统计方法，但没有想象中的简单，不展开细聊了，看到上述内容有意思，插一句提提

【相关】

【泥沙龙笔记：再谈知识图谱和知识习得】

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

《语义三巨人》

董振东：逻辑语义及其在机译中的应用

《泥沙龙李白对话录：关于纯语义系统》

Notes on Building and Using Lexical Semantic Knowledge Bases

《泥沙龙铿锵三人行：句法语义纠缠论》

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-947882.html

上一篇：【泥沙龙笔记：再谈知识图谱和知识习得】
下一篇：【围脖：做 parsing 还是要靠语言学家，机器学习不给力】