《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:中文自动分析杂谈】

已有 2056 次阅读 2016-5-6 17:00 |个人分类:立委科普|系统分类:科研笔记|关键词:中文自动分析| 中文自动分析

我:
才发现自己行文中的一个歧义,人是怎么理解校正的呢?
“最心颤的一幕是宇航员的中年父亲归来探视自己已经白发苍苍的宝贝女儿”(from 有那么老吗?)
里面的“自己” 是 NP 中的定语,而不是定语从句里面的主语。可是一个 “正常合理”的 parser 应该是采后一个 parse 的,人也应该如此,直到后来某个认知点的校正(or 休眠唤醒)。
探视自己已经白发苍苍的宝贝女儿 == 探视[自己的已经白发苍苍的宝贝女儿]
探视自己已经白发苍苍的宝贝女儿 <>探视 [自己已经白发苍苍] 的宝贝女儿
除非后一个 parse 中的 “自己” 指向 “女儿”,而不是 antecedent “父亲”,可 binding 的原则或 hueristics 应该是前指,而不是后指。
最好不要扯 common sense logic,说 “中年” 与 “白发苍苍”自相矛盾,因此排除了前指的可能性。
为什么不要扯 common sense logic 呢?一来那玩意儿不好形式化,扯了也是白扯,反正也不好实现。二来 common sense 都是跛脚的,作为标配和默认,太软,容易破碎失灵。最后,在这个特殊的科幻语境,common sense 本来就 not applicable (NA):如果循 common sense,”中年父亲探视老年女儿“ 的场景绝无可能。
白: 伟哥的例子,一句话就能破解。“的”向可以提取显性坑的结构倾斜。(“自己”提供隐性坑,“白发苍苍”提供显性坑。)
我:
如果分层 parsing 的话,“自己已经白发苍苍”  应该在 “已经白发苍苍的宝贝女儿” 后去做?
S de N vs. VP de N 的博弈,通常是前者胜。白老师的说法是,如果那个 S 的主语本身不独立,而是有“隐性坑”的话,则让位于 VP + de + N?
VP 的 N 中 N 是主语,S 的 N 中 N 不能是主语因为主语已经填满了。前一个 “的” 有坑,后一个 “的” 没有坑。没有坑的S做定语从句的时候,对 N 有严苛的限制,只有少量的名词,如 故事、报道 等才能带有一个 saturated S 的定语从句,不能默认为任何 N。另一方面,这个 N 与 VP 的主语坑,也有 selection restriction 的。
白: 把“自己”换成“张三”,一定是张三的女儿。“自己”不过是一个烟幕。
我: 有道理
但是如何决策组合关系的谁先谁后?
S 长度大于 VP,如果不考虑 post-context “的”及其后面的 N 的话。
NP+VP+de+N 是 [NP+[[VP+de]+N]] 还是 [[NP+VP]+de]+N?
白:
“女儿”也提供一个隐性坑,VP扯旗造反后,剩下的NP正好填坑。
我:
还是先确定一个默认路径,然后在其上决定怎样填坑。默认路径从统计上看应该是VP强于S,因为S对于后面的N有很强的制约,只能是很小的一个N的子集。如果决定这是默认的话,那么只要找出非默认的 S 做主语需要什么就好了。
当然,也可以采纳 S 为默认定语从句,然后找出 VP 啥时造反,override 默认。
白: “宝贝女儿”换成“现状”,就偏过去了
“张三挥了一下自己已经使用多年的宝剑”
“宝剑”没坑,“自己”的一个义项是做定语,就是说提供一个不要求对方专一使用、可以被对方吸收的左括号。
我: “现状 ”是那个很小N子集的一员。
我的问题是,处理的时候是 VP 做默认还是 VP 造反比较好?如果策略是做默认,那就啥也不用做,对于这个 case。
不仅是这一个歧义问题的策略,这是对于几乎所有的歧义的基本策略,都应有一个默认的选择,省功多半啦。一般是采纳统计上更常出现的路径作为默认比较方便合算。然后只要聚焦到非默认路径的辨别和条件就好了。
白: 从触发概率看,VP默认好。
我: 我此前一直是 S 做默认,当时没有多想,只是觉得 longest principle,S 比 VP 长。但是今天仔细一想,还是 VP 做默认好。
白: 但是孤立出来的NP必须有可做定语的特征
我: 那也是默认,几乎所有的N 默认可以做定语。不能做定语的才要识别。如果默认是不能做定语,就很难列举全哪些N做定语,那个集合太大。
白: 裸名词可以,组成短语就难说了。
“张三拿出办公大楼通行卡刷卡的记录”
“李四拿出办公大楼通行卡破碎的残骸”
前一个,“记录”在适合S那个小集合;后一个,“残骸”提供了隐性坑。
个人觉得,一般N固有的做定语能力不足以穿过定语从句作用于中心词NP。
“自己”有点指示词的味道。
我: 但 【人】 的 N 例外,“自己” 属于【人】吧
白: 嗯
我: 【人】天生有较强的领属特性。
白: 语言就是以人为坐标原点的怪物
我: 极是。人中心,无处不见。
张: 精灵
我: 一半的词汇与人有关。大千世界加在一起分享那另一半词汇。人就是如此的自我中心。
白:
好,结论出来了。左边NP,标配是不可穿过,人例外。右边NP,标配是与VP结合,小集合例外。
问题也来了,两边都是例外的情况下,怎么办?
“张三没有透露的事实”
有歧义了,但是这个例子有不饱和谓词。
用形容词:“张三非常神秘的传言”
真歧义了
饱和比不饱和优先,哪怕是中心语反填出来的饱和。
同样饱和,就看中间件给出的搭配评分了

我: 受教。目前是这样处置的:


XFK: @wei 请您试试这两句话如何分析 “有的老师没有学生带” 和 “有的学生没有老师带”
前一句啥机关?我人脑也没发现机关。
白: 这里有习惯性角色搭配的问题
我: 就是不搭而已。对于语义不搭,句法是默认的,除非是结构歧义句式。
白: 大数据可以揭示“老师”填入“带”的逻辑主语优先,“学生”填入“带”的逻辑宾语优先。
我: 哦,老糊涂了,S 和 O 的issue。
XFK: 第一句的意思是 教学任务不饱满,老师没有学生可教
我: 明白了。都搭。乍一看以为前一句不搭。
白: 都搭,所以大数据说了算

我: 你挖个陷阱让我的parser往里面跳啊


后一句 parse 在正道上,语义中间件也较容易补全逻辑宾O。
白: 邢老师,这个是典型的波粒二象性。
我: 耍流氓的 topic 从良为宾语,很常见。
前一句 呵呵 呵呵 。。。 顾左右。。。
不言他。
白: 耍流氓的场景需要转换,从规则转到统计
我: 耍的时候还是耍以后的语义中间件的逻辑角色填坑?
白: 这是个好问题。如果有休眠唤醒兜底,我不介意在过程中就调用语义中间件。如果非标注大数据可以撑腰,我也不介意这个语义中间件具有很强的统计特性。
我: 耍流氓规则就敲定了,因为句型很清晰。耍流氓的实质是休眠和延后谈恋爱和结婚。到了谈婚论嫁的语义阶段,感觉至少一半的现象不需要统计就可以搞定。原因是结构条件成熟了,搭配checking一下就可以了。
XFK: @白 有这种二相性的感觉,结构和语义胶着,但角色切换的条件是什么呢?
XFK: @wei 统计优势的时候就可以谈婚论嫁了?
白: 也有一种都带着跑的方案,语义中间件给出非截然的连续值评分,神经网络带着并行跑。
我: 只有在两个搭配打架的时候,理论上,离开统计就只好把歧义进行到底了。
譬如,“这本书我读了两遍”,parsing “这本书”为 Topic 完全可以,到了后来,“读”的缺坑就让 Topic 从良入赘了。@邢,统计了当然不是百分百把握,语用理论上还可能翻盘,但也顾不得了。在语义阶段,遇到结构歧义,统计基本上是最好的裁判了。最终当然是语用说了算,但也真地顾不上了,或者干脆语义阶段不做这种统计性排歧,只做确定性填坑。
直觉上就觉得“非截然的连续值评分”(神经网络带着并行跑)是自己给自己找麻烦,后果难以预料。很长一段时间,学界不少人鼓吹probability associated nondeterministic parsing,也未见搞出名堂来。瓶瓶罐罐已经够烦人了,还让这些瓶瓶罐罐各自带着自己的小瓶小罐。机制上即便可以带着跑,总有跑累了需要了断的关节口。到了哪个当口去收拾它啊,直觉上是一团乱麻,跑得越远,越乱。不过我不懂,只是直觉而已,还是闭口。
白:
 
刚才这句“隐节点越多,表达能力越强,但效率损失也越严重。”小句间逻辑关系的识别有点名堂。
由于“但”的存在,逻辑关系只能是1推出2and3。如果不加“但”,就增加了1and2推出3的可能性,再把“也”换成“就”,1推出2and3的可能性就被排除了。
我: 可见,小词重要啊。
XFK: @wei 谢谢您和白老师的讲解。在结构分析中,语义何时介入确实不好办。比如换个句子“有的老师没水喝”这句中的“水”还会被分析成主语吗?

我:


这个句子太常见了,所以不知何时早处理了:没书读,没工做,没饭吃,没水喝。。。

XFK: 是不是“喝水”常见,而“带学生”不常见,使得“学生”被分析为主语?
我: 不知道。开发系统是一个长期的过程,在某一刻的某种考量,过后会忘记,但是,创造者可以忘记,被创造者却不忘记。而且只要是 data driven,开发环境好的话,也不会走偏。其结果就是我说的,系统输出常会给人 nice surprises。直到有一天,被创造者有可能超越创造者。
这个是切身体会,不是天方夜谭。我在开发英语的 parser 的后期常有这种感受。那个parser测试了太多的句式,灌输进了太多的语言学,比中文系统的成熟多了。测试到后来,都觉得没意思了,于是收手。中文目前已经相当成形鲁棒,但还有不少空间。
白: 喝的两个坑,有一个已经跟水绑死了,就没挑战性了。

我:


不是最优,凑合了。万能词“是”字也蛮讨厌,懒得伺候它了(界定何时后面带小句,而不仅仅是O)
或留到语义中间件去把 Next 从良为小句谓语。
白:
有Next才处理干净和没有Next就能处理干净,通常后者优先。
我:
前者从容一些。心里明白不难,要做总可以做,不是能力问题。何妨趁年轻耍耍流氓呢。耍流氓不是因为找不到对象,而是因为青春躁动期想撒撒野。

西方年轻人很多人有这种观念,非常流行。18-25 岁换朋友跟换脸巾似的,到了 25 岁或 30 以后,开始严肃考虑成家定终身。



【相关】

【立委科普:美梦成真的通俗版解说】

【立委科普:结构歧义的休眠唤醒演义】 

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【置顶:立委科学网博客NLP博文一览(定期更新版)】  







http://blog.sciencenet.cn/blog-362400-975416.html

上一篇:联合国福音,祝各位54青年节快乐
下一篇:【李白对话录:谁无知呢?】

0

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-27 11:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部