我:
才发现自己行文中的一个歧义,人是怎么理解校正的呢?
“最心颤的一幕是宇航员的中年父亲归来探视自己已经白发苍苍的宝贝女儿”(from 有那么老吗?) 里面的“自己” 是 NP 中的定语,而不是定语从句里面的主语。可是一个 “正常合理”的 parser 应该是采后一个 parse 的,人也应该如此,直到后来某个认知点的校正(or 休眠唤醒)。
探视自己已经白发苍苍的宝贝女儿 == 探视[自己的已经白发苍苍的宝贝女儿]
探视自己已经白发苍苍的宝贝女儿 <>探视 [自己已经白发苍苍] 的宝贝女儿
除非后一个 parse 中的 “自己” 指向 “女儿”,而不是 antecedent “父亲”,可 binding 的原则或 hueristics 应该是前指,而不是后指。
最好不要扯 common sense logic,说 “中年” 与 “白发苍苍”自相矛盾,因此排除了前指的可能性。
为什么不要扯 common sense logic 呢?一来那玩意儿不好形式化,扯了也是白扯,反正也不好实现。二来 common sense 都是跛脚的,作为标配和默认,太软,容易破碎失灵。最后,在这个特殊的科幻语境,common sense 本来就 not applicable (NA):如果循 common sense,”中年父亲探视老年女儿“ 的场景绝无可能。
白: 伟哥的例子,一句话就能破解。“的”向可以提取显性坑的结构倾斜。(“自己”提供隐性坑,“白发苍苍”提供显性坑。)
我:
如果分层 parsing 的话,“自己已经白发苍苍” 应该在 “已经白发苍苍的宝贝女儿” 后去做?
S de N vs. VP de N 的博弈,通常是前者胜。白老师的说法是,如果那个 S 的主语本身不独立,而是有“隐性坑”的话,则让位于 VP + de + N?
VP 的 N 中 N 是主语,S 的 N 中 N 不能是主语因为主语已经填满了。前一个 “的” 有坑,后一个 “的” 没有坑。没有坑的S做定语从句的时候,对 N 有严苛的限制,只有少量的名词,如 故事、报道 等才能带有一个 saturated S 的定语从句,不能默认为任何 N。另一方面,这个 N 与 VP 的主语坑,也有 selection restriction 的。
白: 把“自己”换成“张三”,一定是张三的女儿。“自己”不过是一个烟幕。
我: 有道理
但是如何决策组合关系的谁先谁后?
S 长度大于 VP,如果不考虑 post-context “的”及其后面的 N 的话。
NP+VP+de+N 是 [NP+[[VP+de]+N]] 还是 [[NP+VP]+de]+N?
白:
“女儿”也提供一个隐性坑,VP扯旗造反后,剩下的NP正好填坑。
我:
还是先确定一个默认路径,然后在其上决定怎样填坑。默认路径从统计上看应该是VP强于S,因为S对于后面的N有很强的制约,只能是很小的一个N的子集。如果决定这是默认的话,那么只要找出非默认的 S 做主语需要什么就好了。
当然,也可以采纳 S 为默认定语从句,然后找出 VP 啥时造反,override 默认。
白: “宝贝女儿”换成“现状”,就偏过去了
“张三挥了一下自己已经使用多年的宝剑”
“宝剑”没坑,“自己”的一个义项是做定语,就是说提供一个不要求对方专一使用、可以被对方吸收的左括号。
我: “现状 ”是那个很小N子集的一员。
我的问题是,处理的时候是 VP 做默认还是 VP 造反比较好?如果策略是做默认,那就啥也不用做,对于这个 case。
不仅是这一个歧义问题的策略,这是对于几乎所有的歧义的基本策略,都应有一个默认的选择,省功多半啦。一般是采纳统计上更常出现的路径作为默认比较方便合算。然后只要聚焦到非默认路径的辨别和条件就好了。
白: 从触发概率看,VP默认好。
我: 我此前一直是 S 做默认,当时没有多想,只是觉得 longest principle,S 比 VP 长。但是今天仔细一想,还是 VP 做默认好。
白: 但是孤立出来的NP必须有可做定语的特征
我: 那也是默认,几乎所有的N 默认可以做定语。不能做定语的才要识别。如果默认是不能做定语,就很难列举全哪些N做定语,那个集合太大。
白: 裸名词可以,组成短语就难说了。
“张三拿出办公大楼通行卡刷卡的记录”
“李四拿出办公大楼通行卡破碎的残骸”
前一个,“记录”在适合S那个小集合;后一个,“残骸”提供了隐性坑。
个人觉得,一般N固有的做定语能力不足以穿过定语从句作用于中心词NP。
“自己”有点指示词的味道。
我: 但 【人】 的 N 例外,“自己” 属于【人】吧
白: 嗯
我: 【人】天生有较强的领属特性。
白: 语言就是以人为坐标原点的怪物
我: 极是。人中心,无处不见。
张: 精灵
我: 一半的词汇与人有关。大千世界加在一起分享那另一半词汇。人就是如此的自我中心。
白:
好,结论出来了。左边NP,标配是不可穿过,人例外。右边NP,标配是与VP结合,小集合例外。
问题也来了,两边都是例外的情况下,怎么办?
“张三没有透露的事实”
有歧义了,但是这个例子有不饱和谓词。
用形容词:“张三非常神秘的传言”
真歧义了
饱和比不饱和优先,哪怕是中心语反填出来的饱和。
同样饱和,就看中间件给出的搭配评分了
我: 受教。目前是这样处置的:
XFK: @wei 请您试试这两句话如何分析 “有的老师没有学生带” 和 “有的学生没有老师带”
前一句啥机关?我人脑也没发现机关。
白: 这里有习惯性角色搭配的问题
我: 就是不搭而已。对于语义不搭,句法是默认的,除非是结构歧义句式。
白: 大数据可以揭示“老师”填入“带”的逻辑主语优先,“学生”填入“带”的逻辑宾语优先。
我: 哦,老糊涂了,S 和 O 的issue。
XFK: 第一句的意思是 教学任务不饱满,老师没有学生可教
我: 明白了。都搭。乍一看以为前一句不搭。
白: 都搭,所以大数据说了算
我: 你挖个陷阱让我的parser往里面跳啊
后一句 parse 在正道上,语义中间件也较容易补全逻辑宾O。
白: 邢老师,这个是典型的波粒二象性。
我: 耍流氓的 topic 从良为宾语,很常见。
前一句 呵呵 呵呵 。。。 顾左右。。。
不言他。
白: 耍流氓的场景需要转换,从规则转到统计
我: 耍的时候还是耍以后的语义中间件的逻辑角色填坑?
白: 这是个好问题。如果有休眠唤醒兜底,我不介意在过程中就调用语义中间件。如果非标注大数据可以撑腰,我也不介意这个语义中间件具有很强的统计特性。
我: 耍流氓规则就敲定了,因为句型很清晰。耍流氓的实质是休眠和延后谈恋爱和结婚。到了谈婚论嫁的语义阶段,感觉至少一半的现象不需要统计就可以搞定。原因是结构条件成熟了,搭配checking一下就可以了。
XFK: @白 有这种二相性的感觉,结构和语义胶着,但角色切换的条件是什么呢?
XFK: @wei 统计优势的时候就可以谈婚论嫁了?
白: 也有一种都带着跑的方案,语义中间件给出非截然的连续值评分,神经网络带着并行跑。
我: 只有在两个搭配打架的时候,理论上,离开统计就只好把歧义进行到底了。