白: 继续我们的POS讨论。我们来看苏芮的《牵手》歌词,里面涉及到大量词类的活用。什么“悲伤着你的悲伤,幸福着你的幸福”。
追逐着你的追逐。大家怎么看?第一个“追逐”是动词,第二个“追逐”是名词,意思是“追逐的东西”。
第一个悲伤和第一个幸福,是动词化的形容词,意为“体验”。这个“体验”是怎么来的?
背后实际上存在着一个小小的推导:以“悲伤”为对象的行为,导致同样“悲伤”的结果状态,这个行为是什么?弥漫式联想,先中标的就是“体验”。
最后一个“你的追逐”,其实和“你的幸福”并不严格平行。“你的幸福”就是幸福的状态,是“自指”;“你的追逐”是追逐的对象,是“转指”。
为什么这个情况下转指优先于自指?
因为“追逐”释放了两个坑,“你”占掉一个,还有一个被“的”提取出来。如果是“你的离去”,只有一个坑,被“你”占掉就没有坑了,所以只好自指。“的”没得可提。
所以名词化动词化,这都是概念性的,换个说法说他们就是一个新的词类,从规则体系构建的角度也未尝不可。但是,核心问题是提取、自指、转指,因为这关系到哪个萝卜填哪个坑,也就是角色指派(role assignment)。
这些,一错全错,翻盘机会都没有。不是玩概念那么轻松。
最近中央文件里经常提到“基本遵循”,这个“遵循”也是转指。意思是“所遵循的内容”。
我发现,不理会中心词的词性,只看坑,规律反而简单明了。中心词的词性在这个场景下只会添乱。
李: 昨晚的笔记鼓捣完了,可以说一下白老师提到的词类活用了:幸福着你的幸福,路过你的路。
首先,活用的东西都有点“出格”,如果是小学生,就判他错,打回去重做。
如果是权威(譬如鲁迅),就惊叹他是语言大师。
如果是诗人(包括歌词作者),就给他特别的 license,算是容忍性质的欣赏,所谓 poetic license。这些人不可与常人同论。
当然,实质是,即便活用显得离谱了,信息还是传达了,交流的目的还是达到了,那么 NLP 就得有个对策。
那个 “路过你的路” 第一次听就觉得很离谱,可能的原因是,“路过” 也是一个口语常用词,可词作者这里却不是用的这个常用动词(V+particle)的意思,而是硬在排比的句式中,把它强力(by brute force)拉到了“路”的名词上,然后通过活用再拉回到动词的理解上来。你说别扭不别扭。明明是 “走过了你的路”,她硬是不会好好说话,要说“路过你的路”:真地仅仅是路过么?(小声说:神经病!)
可是,汉语有一个很有意思的特色,就是排比对仗句式的运用,远远多于其他语言,而且这种排比对仗的形式,有强大的功效:它可以把本来是罕见甚至不可能的解读,在排比对仗中,翻出来,压倒常用的或缺省的解读。这个特点有悠久的传统,是汉语研究的好课题。我们读没有标点的古汉语文字的时候,搞不清句读的时候,往往也是靠排比对仗,帮助断句断词。这个传承在每年的春联以及文人骚客的吟诗唱和中,也不断出现,保持和强化汉语共同体对于这种句式的敏感度。
下面的问题就是,如何使用这个汉语的特点,来帮助parsing和理解汉语,这是一个可以做一批很好的博士论文的大课题。到目前为止,还没有听说哪个汉语 parser 系统地使用了这个排比对仗的帮助,对于汉语理解起了多大的作用。大体的想法是,这个课题既难又易,是一个可以下功夫,而且下了功夫可以出成果的地方:说它难,是因为排比对仗通常是在小句之间进行的,跳出了传统 parsing 原则上不跨小句(clause)的 scope,要想有机融入 parsing,需要在 NLP 设计上有创新。说它容易是因为排比对仗都用了明显的显性形式,非常有迹可循:音节数(or 汉字数)是一个显性形式,patterns (譬如 SVO) 也很工整,这些都可以形式化,仔细钻研的话,very tractable。先说到这里,这只是一个设想。做教授的可以传达给学生,这的确是很好的中文 NLP 研究方向,发愁找不到好的论文题目的研究生不妨往这个方向多想想。
最后说一点对付活用的有效而简单的 tricks,特别是常见的词类活用。这类话用人一看就明白,那是因为有形式痕迹,否则这些词典里面本来不具有的句法可能性也不会被人理解。既然如此,在 parsing 中动态应对其结构是很容易的,不会影响parsing的合理进行。至于活用以后的语义求解,那是非常个性的、与各个词可能的语义空间有关,比较难,可以先放着(硬骨头留给白老师),等到语用场景需要解读的时候再看有没有好的应对。
譬如“着”这种形式就可以动态地把它前面的任何词动词化和谓语化: X+着 --》 Verb Group,幸福着你的幸福,就可以顺利 parse 了,至于parse tree 建立以后,那个谓语节点(node)怎样解读,怎样得出“体验” 的 sense 出来,那是另一个层面的问题,除了词典化的强盗捆绑以外,不大可能有很好的具有概括性的解决方案(理论上利用常识等推理应该可以把这种联想的语义挖出来,实践上很难形式化实现)。
词典捆绑是可行的,但需要事先捆绑那些即兴的活用,有点防不胜防。如果允许系统亡羊补牢,一失足再不犯,算是“可以教育好的系统”,那么词典捆绑可以很有效,就是见一个就往词典垃圾箱扔一个,第一次活用就任它是 unknown 词义。词典捆绑语义的 pseudo-code 如下(这是词典个性规则): 幸福+着 --》体验+着。这是人根据自己的理解,强加到词典的,是强盗捆绑,不需要理由,也不需要把背后的联想智能过程展示出来,只要有结果就行。
这算对昨晚缺席议题的回应。
【相关】
【李白对话录系列】
【新智元笔记:中文处理中的POS、搭配和句法】 2015-12-01
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-940365.html
上一篇:
【新智元笔记:中文处理中的POS、搭配和句法】下一篇:
衙门文化(后续)