《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《泥沙龙笔记:parsing 的休眠反悔机制》

已有 2580 次阅读 2016-1-27 15:46 |个人分类:立委科普|系统分类:科研笔记|关键词:deterministic,non-deterministic,default,标配,默认,反悔,parsing,句法分析,结构歧义| default, Non-Deterministic, 默认, 标配, deterministic

Nick: 十几年前给两个台办主任送过美凤光盘。

我: 主语施事是侬?

这是一个疑问句。
迈: 这是给中纪委举报的分析图吗?
ISLA: nick还干过这件事
白: 为啥“主任”没当actor?under是“两个台办”,actor是“主任”多好,不用向外借context里的“尼克”了。“台办主任”难道进词典了?N+N结构难道比缺主语还优先?

我: 没进词典,“台办+主任”是rule合成的。为啥主任要做那个actor?“给” here 是个介词,是“送”的 subcat 要求的,作为 dative,不是逻辑主语,就是双宾语句式的 human 对象,光碟才是 undergoer。

白: 说错了,“两个台办”是介宾,“光碟”不变。“主任”单拎出来,做actor。
我: why?还只是理论上的可能性?有两个台办么?文革中的确有过两个司令部,但那是非常时代。
白: 我是好奇,为啥一个无主的选择会优于一个有主的选择。难道你是推理了没有两个台办才往后走的么?
我: 没有推理,I was kidding。合成词:台办+主任,优于被 determiner 直接修饰。汉语中合成词的构成优先于句法上的chunking;不仅汉语,这是语言学一般原则:合成词处于 morphology 和 syntax 之间。
白: 也就是说,局部的优先关系已经把别的可能性扼杀了?不把其他选择往外传?
我: 这个原则上是对的。
白: 比如“听说发文件的是台办主任吓坏了”,肯定分析不对了?
我: 这个...人理解也有歧义。

不怕献丑了:


白: 不太通
我: 的确不大通。这个 parse 是说,“是台办主任吓坏了”,“听说发文件”是一个诱因。不是完全不可能,但对里面的小词 “de” 和 “是”,parsing 有点走偏了。做这些小词,分寸很难掌握,稍不留心就过火。
白: “去了趟台办主任更神气了”如何?没有小词了。
我: 白老师不要逼人太甚 :=)
没有小词了,但你为啥不加逗号,不加标点也罢,给个 SPACE 也好。
白: 学意识流。

我: 存心难为 parser:


wrong,as expected
白: 意料之中,构词法一上,木已成舟。

我:

:

see 你若规矩 便是晴天!

一个小小的 space 有那么难么?为啥意识流?ADD 了么?做系统的人都知道,没有没有软肋的。
白: 对。只是好奇。因为之前交流过能带着多种可能性往下跑的事情。
我: 只是分寸火候而已。原则上,合成词前置是合理的,好处远远大于副作用。理论上可以保留哪怕微小的其他可能性,待后处理。实践中,当断不断, 终于自乱。哪些带着往下跑,哪些当断则断,也是一个火候的掌控。PP-attachment 这类我们是往下带的。太低的模块,一路带着往下跑,瓶瓶罐罐的,非常难缠。
白: 所以,先休眠再有条件唤醒,也是一策。当然这就要允许逆行。
我: 带着往下跑本质上也是一个组合爆炸问题,除非一边往下跑,一边卸包袱。
休眠唤醒是一个好主意,对于某些现象。我也试验过,用得好是有效的。
白: 段子大都是休眠唤醒模式。
我: 譬如一个 NP,内部的关系难以全部穷尽可能性,那就保留部分关系,然后到最后,可以重新进入这个 NP,根据需要决定重建关系。在这种情形下,问题已经缩小了,重建不难。甚至 PP-attachment 也可以循此道。譬如,一律让 PP 挂最近的 XP,成为 deterministic parse,到了语用和抽取的时候,再去重建其他的 parses,这时候语用的条件进来了,先前被休眠的可能 parse 就可以复活。
白: 武断和文断的区别…… 武断是效率的保证,休眠唤醒是兜底的保证。
我:段子的休眠唤醒说明,人的大脑认知也是先入为主的,很多时候是武断的,不过是允许反悔罢了。这种反悔有类似以前的 backtracking 的地方,但是实践中并没有那么大的 costs。
白: 看是哪种实践了
我: 因为在语用层面做反悔,基本上是已经聚焦了以后的反悔。这种聚焦最经常的方式是词驱动,因此,需要反悔重建的现象大大缩小。
白: 不同商业模式下,价值取向有差异是正常的。
我: 如果大海一样全部来反悔运动,还不如一开始就全部保留。幸运的是,绝大部分应用,语用与语法是可以分清界限的。
白: 反悔是白名单驱动,武断是标配。
我: 标配就是统计可能性大的,或者是遵循普遍原则的,譬如合成词前于句法。
白: 对
我: 任何原则或 heuristics 都有例外,到了例外,如果有一个反悔机制最好。
白: 给一条反悔的通道,但是慎用。
我: 与此相对应,还有一个例外排除机制,就是先堵住例外,然后做标配。这个办法比反悔更费工。只有在具有类似 Expert Lexicon 的词驱动的例外机制的时候,才好用。
白: 提醒一下,词驱动是取决于双因素的,不仅要看trigger是啥,也要看休眠的是啥。另外休眠的东东即使不参与分析,也可以自己做弥漫式联想(不同进程或线程),类似认知心理学说的阈下啥啥啥。这样trigger就可以提高命中率
我: 弥漫联想再往下就是弗洛伊德了。
白: 对。
词驱动这种“相互性”我举个例子就明白了:我家门前的小河很难过。
“难过”具有长词优势,“难/过”休眠了。但是,“过”弥漫式联想,激活了“过河”,于是开始反悔。直到“难/过”翻案成功。
我: 好例。“过河”与“洗澡”一样是分离式合成词,属于动宾结构。凡是可以词典化的单位,休眠重启不难实现。因为词驱动的可能性都是有限的,而且可能性都可以预先确定。以前提的“睡过”的歧义也是如此。
白: trigger有外因有内因。外因就是更大整体的句法、或语义、或语用产生不匹配等,内因就是当事的成分自己或静态、或动态地展现出结合的可能性。休眠情况下,静态不可能。动态,相当于休眠的成分梦游了,在梦游中邂逅了。
那个“夏洛特烦恼”,也是上下文给了“夏洛”独立成词的某种强化,回过头来唤醒了“特”作为副词的已休眠选项。或许,作为副词的“特”正在梦游。
白: 说了半天,还不是为了尼克
我: 对了,忘了尼克究竟是不是actor了,丫保持缄默,怎么讲?贿赂完三X光碟,在一边偷着乐吗?


【相关】

【新智元:中文 parsing 在希望的田野上】 

《新智元笔记:NLP 系统的分层挑战》 

 《泥沙龙笔记:连续、离散,模块化和接口》 

【立委科普:语法结构树之美(之二)】

【征文参赛:美梦成真】



【置顶:立委科学网博客NLP博文一览(定期更新版)】  





http://blog.sciencenet.cn/blog-362400-952832.html

上一篇:【科普小品:伟哥的关键词故事】
下一篇:《新智元笔记:基本短语是浅层和深层parsing的重要接口》

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-11-14 02:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部