《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:结构歧义的休眠唤醒演义】 精选

已有 6699 次阅读 2016-4-17 04:58 |个人分类:立委科普|系统分类:科普集锦| parsing, 休眠唤醒, 结构歧义

以前论过,休眠唤醒是一个很重要的机制,它是应对结构歧义的通用手段。人会装死装睡当然唤不醒,语言虽然也是人说的,但一言既出驷马难追,说出口的句子就是无生命的客观存在,是有限词汇有限排列的线性信息流,没法装了,理论上没有唤不醒的隐藏路径。

譬如:“蒙牛关注并激励大学生的梦想

Our determinitic parser 在句法阶段的结构输出是:

“蒙牛”落单了,原因是VP“关注并激励”先做了“大学生”的定语沉底了,没给“蒙牛”做主语的机会(无可非议,通常主语都是最后做,因为主语针对的并非动词,而是谓语,即乔老爷X-bar理论里的“动词杆杆杆”,  见 乔氏X杠杠理论 以及各式树形图表达法)。

这样一来,蒙牛找不到对象,开始“耍流氓”,见谁抓谁,遂与后面落单的“梦想”勾搭上,形成了一个句法语义都不清晰的暧昧关系,我们给了 个标签叫 Next(因为唯一依据是次序)。

句法可以耍流氓,但语义不答应,这就是hidden路径唤醒的价值和意义。我们于是在“语义中间件”里面去唤醒这个hidden的S关系:


“蒙牛”利用暧昧“梦想”找到了与自己情投意合门当户对的谓语动词“激励”,嫁过去做了女主人S(还好过河没拆桥,Next 还在,其实是可以扔掉这敲门砖的)。

不过细察发现,这个动词“激励”其实还有一个并列的孪生兄弟“关注”。要嫁的话,就得嫁给两人才公平合理(逻辑语义的依存世界里,每一个 arg 的关系都是允许一妻多夫(or 一夫多妻)的,否则后续的语用阶段做信息抽取就可能因为断线而挖掘不全情报)。

好,我们唤醒的时候小心一点,照顾到孪生兄弟的需求,hence:


做到这一步已经有模有样了,支持舆情挖掘啊知识图谱啊,应该说基本就够了。

但是,我们是完美主义者,有老九的本性,做到“能用”的分析结果只满足了我们低层次的物质回报的需求,我们还有高层次的“学者型”追求。我们要继续革命。

继续研究发现,这么个短短的字符串其实隐含了更多的结构歧义。首先这到底是句子 S 还是短语 NP?

我们迄今的 parsing 其实是当它是一个扩展的短语,不过是带了一个定语从句而已。这个分析本身没什么问题。因为它可能就是一个标题,或者就是一个说了一半的话。而且,“关注”和“激励”与“大学生”的本体(ontology)关系也很和谐,至少单单从本体知识优选的角度,与其去关注激励“梦想”,不如关注激励“大学生”更“顺耳”和 make sense:

               <parse ruleName="VO_ontology">

                   <parent>激励</parent>

                   <child>大学生</child>

               </parse>

我们的 parser 最近加入了本体知识的支持,所以上述分析是知识基础上的优选,比以前的 knowledge-poor 的 parser 又上了个档次。就是说,先让“关注并激励”带上“大学生”这个宾语 O,然后让它们做“梦想”的定语。

但自然语言要是如此黑白分明就没语言学家的饭碗了。

那第二条被丢弃(或休眠)的路径是让“大学生”做“梦想”的定语 Mod-S,形成名词短语 NP “大学生的梦想”,然后让NP做谓语动词“关注并激励”的宾语 O。其实这个没被优选的路径是站得住的。

即便作为新闻标题,主谓宾(SVO) 齐全的句子 S 似乎是我们人类理解的首选,而带有定语从句的一头沉的NP反而靠后。在其他非标题的场合,这种偏好 SVO 的 interpretation 无论是作者的表达还是读者的理解,更为明显。当然,这一切的前提是这个 V 与 “梦想”要本体兼容:可以不是本体优选(V 优选的是人“大学生”,不是 “梦想”),但必须本体兼容。否则另一条就堵死了,也不该唤醒了。譬如:“蒙牛关注并激励大学生的宣传”,“激励-宣传”,本体不搭。

这一段演义快结束了,只等一个 finale。如果深究,还有这么一层歧义应该唤醒,唤醒了以后,不是为取代已有的分析,而是提供多种路径选择来支持语用阶段的语义落地(semantic grounding)。就是说这个 case 可以看成是 true ambiguity(双关语疑似),语义结构分析可以只立不破,只要唤醒另一条路径即大功告成。

唤得醒么?

然。没有唤不醒的路径,只有值得不值得唤醒的考量。对于这个 case 其实是不太值得了,但是要做总是可以做的。为了演义,还是加一条语义中间件规则来做给读者诸君看看,下树就是最终结构分析结果。


机制上说,世界上哪里有唤不醒的休眠,发掘不了的hidden路径,解决不了的歧义。实用层面,当然有根据实际需求选择做还是不做的考量。

今天在想,还是要特别感谢白老师和白老师以及尼克的群,最近几个月的一些有启发的讨论,尤其是关于NLP毛毛虫formalism以及休眠唤醒机制的对话,非常有益。虽然在过去很多年,休眠唤醒的事儿已经悄悄在做了,不知不觉实行了一些,但与白老师的对话和讨论,还是把这个问题拔到了一个应有的高度,凸显了还有哪些不足,以及平台上方向上的路线。过去多年实际进行的休眠唤醒,算是就事论事的积累,但方向不是很清晰。现在看来,三个方向(休眠唤醒、世界知识、非确定性表达)中,休眠唤醒最值得花力气。

语义中间件是在句法山穷水尽以后的又一村。虽然多年实践中发现,其实不少语用,其实也用不到太高深的语义中间的助力。不过从 NLP 本身,句法做完了不想喘气儿而各种语用还没有迫到眉睫的话,在休眠唤醒的基本平台就绪后,下功夫做语义中间件,是一件赏心乐事。追求完美不独是洁癖学者的专利,码农也有爱美之心。




【相关】


【朝华午拾:那一天是个好日子】


《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】 

《新智元笔记:跨层次结构歧义的识别表达痛点》 


 【科普小品:文法里的父子原则】

 乔氏 X 杠杠理论 以及各式树形图表达法


【置顶:立委科学网博客NLP博文一览(定期更新版)】 


 《朝华午拾》总目录






https://blog.sciencenet.cn/blog-362400-970617.html

上一篇:【deep parsing:植树为林自成景(30/n)】
下一篇:《新智元笔记:机器的秒杀人类与霍金的杞人忧天》
收藏 IP: 192.168.0.*| 热度|

1 黄永义

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 17:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部