其实,即便不是制度性解决方案,而是 brute force 的,有解决方案还是比没有方案,面对成语拆包现象束手无策要强。当然从一个系统能不能较快地 scale up 去实用(产业要求),和从科学的角度看进展(学界的追求),都要求制度性的解决方案。那么搭配关系和成语拆包到底有没有制度解决方案呢?
其实不仅有制度性解决,而且从我导师刘倬先生上世纪80年代设计专家词典(Expert Lexicon)机制开始,就动态实现了句法和词典的接口,这种制度性解决共性与个性的关系,已经有30年的传承,并被多次以不同方式实现了(包括我的博士研究),不过这种“突破”是处在主流学界的视野之外或被主流所忽视。其实我在ACL发表的关于对付英语可分离短语动词(e.g. take off clothes,take clothes off)的论文也专门谈过这种实现及其效果。
所以我的回应是:对,规律性的拆包不能靠穷举和单列。譬如,洗澡,吃饭,打车,等,就是 V+N的规律性可分离合成动词(separable compound verb with V+N morphology structure),就可以统一处理而不是个案处理,诀窍就在词典与句法的接口上。 //@白硕SH:拆包一定是有普遍规则或原则的,不可能用穷举的方式。
如果 at this point of time,来测试我的汉语系统,“洗澡吃饭”不管怎么千变万化,系统都可以应对。而“借尸还魂”的拆包问题,目前还没到位。这是很多系统开发过程中常见的情形,就好比虽然机制上成语从来不可能难倒电脑,但是在任何一个给定的时间点去测试一个系统,有些偏僻的成语可能就不在系统的词典里面,显得系统很无能似的。