白: @wei 微博上的讨论很有代表性。
我: 看到了,这个错误放大(error propagation)的问题,我以前也讨论过。很多人是杞人之忧,包括雷司令。
@雷 你上次说到,parsing 需要准确才好做知识图谱。还说差之毫厘失之千里,其实完全不是这样子的。估计你是深陷在你的 parser 里面,还没有真正放开手做知识图谱的工作。
说句实话,所有的抽取工作,对于 twitter 和微博这样的短消息的细线条的舆情抽取是最难的,知识图谱这样的工作比起前者简直就是 piece of cake.
我们跟舆情奋斗了这么几年,比较了一下里面的复杂度和tricky的地方,也比较了里面实现的规则,可以说,最难的果子已经吃过了,剩下的大量的知识图谱类的抽取挖掘关系,在 parsing 的基础上,就是一个单纯的工作量的问题,没有门槛,没有难度。
信息抽取中的两大类,一类是客观事实类抽取(关系和事件),针对的是客观语言(objective language),这就是知识图谱的主要内容。另一类是舆情抽取,针对的是主观语言 (subjective language),情绪和评价类。后者的难度高出前者太多。
客观事实类抽取包括:专名 NE, 这是做基础的工作。下面就是在这些NE之间找关系(relationships),找事件(events)。为了抽取出来的东西可以整合(fusion),为挖掘服务,里面还有一些 CO (coreference)的工作。
雷: 知道Watson是怎么抽取相当于100万书籍的知识吗?
我: 上次我就说,如果主语宾语弄错了,那么按照错误放大的说法,抽取是不是就一定做不了呢?答案是否定的。parsing 错了,也可以支持抽取。只要错误是可以预见的,错误不是全方位的。
推向极端就是 @白硕 老师的“意合”系统。你看,根据词和词的 semantic coherence 的某种模板,甚至没有 parsing 都可以做。何况有了 parsing,不过是 parsing 偶然断链,或错置呢?
有很多弥补 parsing 错误的手段可以在接近产品的层面施展,包括 domain knowledge 和 ontology。
雷: 我做过英文文献的药物副作用的抽取。严格的svo,结果不错。但我的感觉是,如果parsing再准确一些,结果会更好,而且事后的处理要少很多。这个仅仅是我的感觉。
我: 再准确也不能完美,主要还是思路要转变。
提高准确性是一个 incremental 的过程,而且一定会遇到 diminishing return 的两难。关键是在做抽取的时候,要知道,利用 node 的信息,可以弥补 arc 信息的不足。node 就是词,arc 就是句法。句法不够,词来补,因为词本身就是语义的最基本的载体,里面可以玩出很多名堂来,包括 ontology。
雷: NLP像地基,如果结实,可以起高楼。后续的修补要少,后面的工作就是建立FACTS,问题是战线要拉多长。
白: 意合法从来不拒绝partial parse tree,句法有什么拿什么,没有也憋不死。
我: Parsing 当然是地基,地基好了一定省力,这都没错。这么多年鼓吹 deep parsing 就是基于同样的理念,因为业界的 parsing 太 shallow, 没有地基。中文NLP 玩了那么多年的业界,谈起 NLP,默认就是切词,或者在切词上做一点啥,譬如 base NP。
雷: 事后修补也是对的,这个在认知心理学中也有证明。但是,这种事后修补在认知中不是大量的。工程的探索和应用是一个方向,认知上探索也是一个方向。
我: 白老师,严格的说,不是句法与语义配合到怎样的比例才做好系统。我们实际上是说,显性形式和隐性形式怎样搭配,才能出一个高效的NLP系统来。可以简单地用句法手段来代表显性形式,语义手段来代表隐性形式,但是说句法语义容易歧义,不容易讨论清楚问题。所以上次,白老师提到 POS 有时候有害,不如语义分类好用。其实白老师说的不过是粗线条的隐性形式POS(一共就给词做10多个POS分类)和细线条的隐性形式(成百上千的语义分类),后者对于汉语分析的重要性。这个没有任何疑问,因为说的都是一家:隐性形式,都是语言里面看不见的形式,都是人必须在词典了给出的 tags,或者需要专门模块去给的 tags。所以我说,再纯粹的语义系统,只要是为工程用,就绝不可能放着显性形式不用,而去舍近求远地依靠隐性形式的语义。只有理论研究,可以放弃显性形式,因为放弃了显性形式,可以从理论上做出一个 universal parser,它可以 parse 人类任何的语言。显性形式(词序,小词,词尾和其他语缀)是 language dependent 的,只有剔除它,才可以做"纯粹语义" 的系统。
雷: 同意,不能放着有用的信息不要。我觉得模拟人的认知可能最是捷径。
白: 前提是,句法不能挡路,不能说你分析不出来了还不让语义按自己的逻辑往前走。
我: 还有,纯粹语义系统肯定不如显性形式可靠。在显性形式可以决定的时候,没有语义(隐性形式)出场的必要,它只会添乱。乔姆斯基的 Green ideas 的伟大实验就是要证明,显性形式能够做决策的地方,语义和常识都失效了。汉语中,“铅笔吃了我”,“铅笔把我吃了”,就是又一例证。绝对不会因为有了隐性的语义格框:动物-吃-食物,就可以用来解决 “铅笔吃了我” 这样句子的语义,这时候是(显性)形式的句法所决定。这样的句子就是显性形式词序或小词“把”在主导,没有语义(隐性形式)出场的空间。再举一个有力的例子,在有显性形式的格标记的语言,宾格基本对应的就是宾语。没有一个 parser 会不利用显性形式格标记,来做分析的。因为它明明告诉了“我已经标注好了,注定要做宾语”,你有什么道理要按照[动物-吃-食物] 这样的语义框格去找宾语呢?
白: 注定的话也不要说绝了。在幽默或修辞的场合,会来翻旧账的。
我: 意思你明白的。
雷: 语意是一个没有学过语言学的人可以说上一些东西的,但他很难说语法的东西
白: 你说的那不叫语义学,叫学语义。
小词本身也携带语义信息、结构信息,比如“的”。为什么我说从语义角色指派的逻辑上看“这本书的出版”和“这本书的封面”有很多共同之处甚至本质上相同,就是因为它的回环结构。
雷: “这本书的出版”和“这本书的封面”的相似度又有什么计算方法吗?
白: “出版”有两个坑,“封面”有一个坑。“的”是提取坑,不管一个两个,不管动词名词形容词。
雷: 出版与封面在wordnet上有什么近似度吗?
我: 你那个“的”是提取坑,我搞不明白
出版是逻辑动词,封面是逻辑名词,迥异。
雷: 封面是没有坑的,有属性,封面是一个class,坑是method提供的。
白: 有坑,part-of,是什么的封面
我: 这是一个 single-arg 的坑,partof 和 wholeof 互为坑。语义面上的,不是传统句法subcat上的坑。
白: 对,一价和二价的差别,如果规定从右边的变元提取,就没差别。右边饱和了,就往左挪。及物动词填掉一个宾语,就成了不及物动词。与此类似。
我: 具体谈一下这两例。结论是?
“的”作为显性形式的小词,其提取作用,与英语小词 of 和 's 类似:
translate A into B --> translation OF A into B
A's translation into B
a book's translation into B
a book's title
白: “的”的定义,就是f(x1,x2,……,xn)的xn,你给我一个f,我就给你一个xn
雷: 以面向对象的模型类比,class,method,和attribute,书是class,封面也是class,但封面又是书的一个attribute。
我: 一般的关系分析并不深入到“partof”这个级别。一般遇到 “的” 或者英语的 's/of ,就是粗线条分析到 Possessive 这一个包罗万象的关系为止。这本书的封面,粗线条就是,“封面”属于“这本书”。而“这本书的出版”则不用,所有的分析都指向动词的 subcat。
白: 粗线条对于汉语不行。汉语有显式的句式与part-of有关。
我: “这本书的出版”,只是利用了小词“的”,把动词名词化,与动词直接加宾语,分析同:
出版加宾语,通常在右边,这是一条。
变式就是:可以名词化,用“的”,宾语前置。
白: 比如 “老李把脚冻肿了”,缺省是老李的脚,不是别人的脚。
我: 那是,不过这个分析真地太细。
雷: 老李的脚是一个NP
白: 老李的脚,老李的讲演,老李的意见
我: 缺省是老李的脚是常识,否则就会显性的把别人的脚表达出来。英语 “撞了我的头” 常常是:
hit me on the head,这个 the 缺省的就是 me。翻译成汉语就用显示的 possessive。
雷: 老李的人的概念,提供属性与构成结构
白: the有anaphor的功能。
我: the 不过是显性地标注了 anaphor ,汉语没有 the,默认的还是 the,而不是 a。凡是一个名词表示非限定的含义的时候,其汉语的用法和条件相对来说,比较可以找得出来。而默认的 the 的含义,不太容易找出条件来,所以默认是个好东西,不需要去定义外延,外延靠别的东西去定义。
雷: 昨天不是有一个language universal的帖子吗?相近原理。
白: 看看汉语讲故事怎么讲:从前有座(a)山,(the)山里有个(a)庙,(the)庙里有个和尚讲故事。
我: 对,我们其实有 a,但常常没有 the,于是 the 是默认。量词是 a,"某" 也是 a, 我们甚至直接用“有”来表示 a (“有人”昨天来讲课了; “有部件”坏了--》一个部件坏了), 当然还有”一“,也可以用做 a,所以汉语表示 a 的形式手段还蛮丰富,因此就不需要 the。.
the 是默认,实在还是不清晰,就用 ”这“、”那“ 等指示小词来强调一下限定的语义。
白: 都是不带形式标记的anaphor
雷: 细致的坑是ontologies的。parsing中动词和形容词有坑就可以了
我: 传统的 subcat 的坑是粗线条的,里面映射的可以是细线条的语义约束的坑。语义模板与 subcat 的关系。
白: anaphor 的 trigger 必须带坑。本身共指,或者 part-of 共指。记得 Winograd 讲过一个例子,一个小孩得到了一个礼物。当他打开(the)盒子,发现……。盒子就是装礼物的盒子,用the勾连起来。
我: 恩
白: 咱汉语里都是隐形的,于是“盒子”作为 “坑的 provider”,必须写到词典里。封面,也一样。
我: 恩,封面的优先主人是谁的信息在词典里,针对的是出版物。
白: 出版的受事坑,恰好也是。所以用的,一提取一个准儿。
县长派来的,比这复杂,因为"派"和"来"各自提供的坑,被一个“的”给提取了。或者说,"派"和"来",经过了一次内部整合,统一一个坑对外,被“的”给提取了。
派是兼语动词(三个坑),来是不及物动词(一个坑)。
但是“派”最左的坑被“县长”填充,饱和了。“派”的另一个“事件”类型的坑,只能接受“来”。于是剩下的那个类型为human的坑,与“来”提供的类型为animate的坑,统一对外了。
我: 很有道理。填坑最好的是只有唯一的候选人,没其他可选。最麻烦的是要动用语义优先。
语义优先可以作为知识,预先学出来或标出来,或半自动,先学后标(postediting)。可是在使用现场需要层层松绑,想想就头大。
遇到结构歧义(不是伪歧义),还不是松绑的问题,而是对比的问题,要看三角恋的三方,哪一对最有 chemistry。
松绑只是对条件按照 taxonomy 去有步骤放宽,而对比不是,对比需要动态的看随机配对的力量对比。不是不可做,是 overhead 太大。
如果不考虑 overhead 和实用,力量对比的评判比层层松绑更容易,因为前者是二值的,总有一个吸引力更强,后者是趋于离散的。
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-931285.html
上一篇:
社会资源的有效利用与社会主义制度下一篇:
《泥沙龙笔记:deep,情到深处仍孤独》