博文

【立委科普：NLU 的螺旋式上升以及 open知识图谱的趋向】

已有 3383 次阅读 2016-7-11 17:59 |个人分类:立委科普|系统分类:科普集锦| 信息抽取, 知识图谱, General, event, 事件抽取

宋：
汉语有些动词，其核心概念其实是事件。对于这种动词V，SV中的S可能是施事，也可能是受事、与事，反正是事件V的参与者。比如，张三上课呢。张三可能在讲课，也可能在听课。张三动手术呢。张三可能是动刀的医生，也可能是病人，还可能是麻醉师、护士。遇到这种动词，填坑比较麻烦。

我:
宋老师可以换一个角度看。
把 “上课” 看成是 “听课” 和 “讲课” 的上位概念，把 “动手术” 看成是 “施行手术” 和 “挨一刀” 的上位概念。然后在这两个上位概念的 subcat 中确定其主语填写的是 involved role 或起个其他合适的名字。这个 involved 的角色在逻辑上是【施事】、【受事】和【与事】的上位概念。这才是合理的分析和系统设计因为语言事实的模糊性得以合适地被model和保留不多不少。

宋:
@wei 确实合理。

我:
我们应该改变勉强机器和自己在模糊地带做黑白划分的思路。

宋:
进一步问，这些动词是哪一些呢？有什么特征呢？

我:
以上是引子。这个“设计哲学”我们从前在前知识图谱时代的图谱项目中用过。
那是 15 年前在水牛城给政府做 IE（Information Extraction）和知识图谱（当时叫 Profile，还没有图谱这个术语）的项目的时候，我们意识到 IE 及其知识图谱按照 community 的标准定义都是 pre-defined：所有的关系和事件都是事先定义好的一张空表格，等着 IE 去填写、等着 IF （Information Fusion）去熔合成图谱，然后利用图谱去做应用。
这个传统有历史的积极作用，IE 因此使得 NLP（Natural Language Processing）和 NLU (Natural Language Understanding) 有了聚焦，有领域针对性，走出了实验室。
但是随着图谱的发展，我们觉得这样做图谱不够，漏掉很多相关的但事先无法精确定义的重要事件。
我们因此定义了一个概念叫 GE （General Event），以动词的 arg structure 为核心，里面的 args 在图谱中的语用角色就命名为 Involved 这是因为其 event 的语义事先是没有清晰定义的。对于一个 arg 来说，它牵涉到的 GEs 叫 Involved-events，对于一个 event 它的 args 叫做 Involved-roles，这个思想实际是延迟具体角色的确定，先把相关的东西绑在图谱再说，可以不变应万变。（《钩沉：SVO as General Events》）。

回看历史，这是一个典型的螺旋式上升的过程：前IE时代的NLU基本都是 toys，原因之一是自然语言太复杂，NLU试图把语言的千变万化parse成无所不包的语义表达，这是眉毛胡子一把抓，boiling the ocean，完全不切实际。结果就是， NLU 的学者成了象牙塔里面研究各种零星而复杂语言现象的腐儒，做不来实用的东西。

IE 开创了新时代。

美国 DARPA 开启和推动的 IE 从一开始就是语用制导，从实际需要定义目标，从 MUC-1 （1st Message Understanding Conference）到MUC-3 开始定义领域事件（名叫 Scenario Template，ST，”火箭发射”、“高管变动” 等），到后来定义的实体以及实体之间的具体的关系，这就把语言处理和理解的任务聚焦了：语言不再是大海，而是海洋中的一个个岛屿。这个扭转是划时代的。

因为语义落地的目标在IE中聚焦了，这就给了机器学习（ML）施展拳脚的机会：ML 把 IE 的任务作为端到端的黑箱子，利用浅层的NLP（譬如本质是 ngram 的关键词models），而不是深层的 NLU，做 IE 抽取和知识图谱。这逐渐成为IE的主流。在IE的community 的 MUC 各个会议中，可以看到直到 MUC-6，两条路线的系统还都有参与和报告，但 MUC-7 以及后续的 IE 的学界（譬如，ACL 的一些 workshops，以及 MUC 后影响和规模小得多的 ACE Automatic Content Extraction program）报告中，规则学派完全彻底地退场了。这与 NLP 整个领域（不仅仅是 IE 这块）的历史趋势完全一致。

统计一边倒到了这个地步，IE 这块肥肉被 ML 在学界独吞了，虽然实践中没有任何理由证明 ML 在 IE 能够真正胜过 deep parsing 支持的规则系统（其实恰恰相反，后者精度更高）。白老师说的，门户之见是不需要理由的，这就是学界的现实。以后也许会改变，但现状就是如此。

但是工业界做类似 IE 或图谱工作的，却远非学界那般极端地一刀切，火种尚存，有NL经验的语言学家仍然得以生存，星火燎原的希望也不是没有。如今，NLU 技术已经发展到了大海不再可怕，deep parsing 面对语言大海，无论精准度（precision）、召回率（recall）、鲁棒性（robustness）还是速度（speed），都已经达到了实用的高度，以至于当年的 IE 必须预先定义的框框，在新的知识图谱的设计中成为了一个束缚。突破 predefinition 有利于 open 图谱做大和多用途。历史可以、而且正在开始向这个方向回转。独立于领域的“一般性事件”（GE）与传统的事先定义的领域事件（PE，Predefined Event）开始汇合和互补。

我们作为 GE 和知识图谱的先行者，早就看到了这个趋向，相信可以看到这种汇合开花结果。在这个过程中，deep parsing 的作用更加凸显。General event 因为目标没有事先预定，对于浅层分析为基础的黑箱子技术路线构成了挑战。GE 的核心就是 arg structure，简称 SVO，是 deep parsing 的自然结果。当年我们给的定义在 GE 里面附加了语用的限制条件（譬如 ignore 指代性 nominalized 的事件），为的是防止把不重要的事件全部喽进来，系统不必要地过载和鱼龙混杂。但那些不过是对 deep parsing 的过滤而已，不改变 GE 立足于 deep parsing 的本质。

NLU 从象牙塔的 deep 起，历经 IE 的 shallow，现在到了可以回归 deep 的图谱时代。这就是 NLP 螺旋式上升的鲜活实例。

【相关】

《知识图谱的先行：从 Julian Hill 说起》

《新智元笔记：知识图谱和问答系统：how-question QA（2）》

《新智元笔记：知识图谱和问答系统：开题（1）》

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

【泥沙龙笔记：再谈知识图谱和知识习得】

【语义计算沙龙：知识图谱无需动用太多知识负重而行】

【立委科普：信息抽取】

《朝华午拾：信息抽取笔记》

泥沙龙笔记：搜索和知识图谱的话题

《有了deep parsing，信息抽取就是个玩儿》