白:试试下面两个例子。
我:来了。
“好奇心”没分开。
白: 两个“饿虎”的处理看不出来。为啥一个作谓语,一个作宾语。
我: 为啥?context 啊。context 很强的时候,可以逼迫POS。
x 和 kei 的 context 很强,所以是谓语。y context 不够强,所以默认为n,虽然“去”的后面完全可以有v。
白: 作谓语的不是一个词,而是一个短语,“虎”是宾语。
我: 系统现在做不到,除非是词驱动,对着它做:说“饿虎”除了 an(定中) 的词法结构外,可以是 vn(使动用法的动宾结构)的词法结构,然后由一个机制把词法结构句法化。这里面的每个环节,都已经有应对机制,包括词法结构的被标示,以及词法结构的句法化。但是,要针对这个 case 让它work成预想的那样,就要做词驱动的细规则,不值得在通用句法层费那个劲。
白: 好像不是唯一途径。
我: 说到底也不是问题。这个case回到了以前讨论过的hidden ambiguity的休眠议题上。只要句法分析成现在这样,后去,休眠被唤醒是完全可以的,词驱动,有啥难的?对于句法,休眠了的动词谓语已经不再影响任何外部的parsing了,具体这个小单位怎样做语义理解真地没必要在句法层面纠缠。句法的原则是“抓大放小”,语用语义的原则是,“先聚焦,再行词驱动”。这条道路虽然不是唯一途径,却是被实践反复检验过的光明大道。
白: “得到强壮身体的唯一方法是去强壮身体。”
我隐约觉得使动用法和定中结构相纠缠是个系统性现象,不是词典级个案。
我:
白: 使动用法没出来,得到的宾语似乎也不对。
我: 是,这个parse问题多多,等有空去debug一下。
白老师说的也对,如果调查一下,究竟这类词有多少,也许可以找到一个系统的处置。原则上,任何系统性歧义,都不是个性的歧义。
白: “想吃热饭就去热饭。”
“我先在这碎纸,等会儿你再把碎纸弄走。”
“我欣赏这里的活跃气氛,伟哥最会活跃气氛了。”
“没有稳固基础是成不了大事的,所以你到了那儿一定要首先稳固基础。”
我:
白: 同形异构,和同形同指,冲突了。
我: 我们弄点小词,稍加改变再看parsing:
当然这个也不全对,“好” 是补语,不是定语。不过不碍大事。
白: 曲线救国…… 虽然是小零碎,一加就灵。
我: 问题是,国人懒,小词能省则省。
小词大体对等于西语的形态,不同的是,形态是词的有机部分,不仅具有系统性,而且绝不可能省掉,否则听上去就不成词了。而小词是 “孤立”或独立的,省去也无妨,国人根据上下文或调动知识,也可以理解。汉语因此显得难学,难 parse。
【相关】
【立委科普:歧义parsing的休眠唤醒机制再探】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-955936.html
上一篇:
《新智元笔记:与汉语离合词有关的结构关系》下一篇:
【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】