《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委科普:固定成语的不固定用法及其机器对策》 精选

已有 3736 次阅读 2015-11-12 20:14 |个人分类:立委科普|系统分类:科普集锦| NLP, parsing, 句法分析, 固定成语, 分离动词

白老师提到的关于成语的打包和拆包,是一个很好的话题。
白老师的微博原话是:纯粹已经打包的成语不构成难度。难度在打包与拆包的边界线上,比如:“让贾宝玉在芭蕾舞中托举林黛玉,纯属多此一举。”“借海瑞之尸,还右倾机会主义者之魂。”前者要把已经打包的成语拆开,后者要从已经拆开的句式还原当初的包。
涉及三个意思
1. ngram literal 不是问题,这与媒体的“成语难倒电脑”宣传和我们乍一看到汉语双关语俏皮话之类的精妙以为机器必然难以“理解”的印象是相反的,但这一点却是最容易达成共识的。能够枚举的、连续的 ngram 这样的任何成语和习惯表达法,无论是词还是比词大的语言学单位,统统不是问题。机器理解的深度与人等同,这种理解爱怎么表达就可以怎么表达。
就是这样的一个简单的业内共识,就很难“科普”给记者或大众。几十年来这种对机器理解的误解长盛不衰,可见所谓科普,基本是对牛弹琴。机器智能和所谓NLU的语言理解,根本不涉及任何“心理”过程,它就是一个计算过程(算法),这一点民众有很深的混淆,而我们自己有时偶然也被不留心地绕进去了,从本群牛人的一些言谈也可以看出。
图灵测试的伟大在于他教导我们要绕开心理纯粹从功能表现上看机器智能。


2. 关于成语拆包,白老师的例子是,“借海瑞之尸,还右倾机会主义者之魂。”

我的回应是:回复: 白老师说的是collocations(搭配),属于两条腿走路的问题,需要做好词典与句法的交互和接口,机制上是没有问题的,主要就是磨细活。......我的博文后来加了一段n条腿走路的比喻,其中就有两条腿的collocations, QUOTE: 第二类现象是搭配关系,譬如某个特定的动词需要搭配某个特定的名词宾语才具有某种确定的意义(打...酱油, 打...电话),这可以称作两条腿走路。
白老师以为我提到的两条腿走路是穷举式 encoding,而不是制度层面的解决方案。于是强调:“规律性的拆包不能靠穷举和单列”。
与白老师对话的趣味在于,白老是老马识途,可以一眼看到痛点和可能的软肋。
其实,即便不是制度性解决方案,而是 brute force 的,有解决方案还是比没有方案,面对成语拆包现象束手无策要强。当然从一个系统能不能较快地 scale up 去实用(产业要求),和从科学的角度看进展(学界的追求),都要求制度性的解决方案。那么搭配关系和成语拆包到底有没有制度解决方案呢?
其实不仅有制度性解决,而且从我导师刘倬先生上世纪80年代设计专家词典(Expert Lexicon)机制开始,就动态实现了句法和词典的接口,这种制度性解决共性与个性的关系,已经有30年的传承,并被多次以不同方式实现了(包括我的博士研究),不过这种“突破”是处在主流学界的视野之外或被主流所忽视。其实我在ACL发表的关于对付英语可分离短语动词(e.g. take off clothes,take clothes off)的论文也专门谈过这种实现及其效果。
所以我的回应是:对,规律性的拆包不能靠穷举和单列。譬如,洗澡,吃饭,打车,等,就是 V+N的规律性可分离合成动词(separable compound verb with V+N morphology structure),就可以统一处理而不是个案处理,诀窍就在词典与句法的接口上。 //@白硕SH:拆包一定是有普遍规则或原则的,不可能用穷举的方式。
在制度性解决了“洗澡吃饭”的可分离现象之后,再看 “借尸还魂”的成语拆包以还原语义的问题,就很清晰了,二者只有一步之遥,是同性质动宾扩展的问题。只要想解决,就可以解决。
如果 at this point of time,来测试我的汉语系统,“洗澡吃饭”不管怎么千变万化,系统都可以应对。而“借尸还魂”的拆包问题,目前还没到位。这是很多系统开发过程中常见的情形,就好比虽然机制上成语从来不可能难倒电脑,但是在任何一个给定的时间点去测试一个系统,有些偏僻的成语可能就不在系统的词典里面,显得系统很无能似的。
但是专家看系统的角度不是这样的。一个系统能不能站得住,不在于一个给定点的知识量,而在于机制上有没有照顾到。知识量的问题是 incremental 的增强的问题,而机制的问题是设计的问题。很多时候,机制可以解决的现象,开发者由于成本和维护的考量,可以选择不去做,这是完全正当的。而一个相当普遍的现象,譬如汉语的可分离动宾合成词的现象,如果没有一个有效机制去系统地应对,那么这个系统肯定没有前途。


3. 最后一点是所谓固定成语的拆分问题,白老师的例子是:比如:“让贾宝玉在芭蕾舞中托举林黛玉,纯属多此一举。”... 要把已经打包的成语拆开。

我当时反复看了这个例子多遍,也没明白问题何在。作为 native speaker 和语言学家的双重身份,心里真地觉得自己老朽不可雕也了。后来,经白老师提点才明白第二个“举”有双关,这种双关是临时而起的,不在成语的本义中,trigger 这种双关的是前面的VV型动词“托举”中的第二个语素(汉字)恰巧也是 “举”(可以认为是 unification 引起的语境双关)。(双关所涉及的被成语压抑而语境复活的字面解读以及成语的本来含义,其实也相差无几。)
这个真地没想到,当然也没认真研究过,亏得白老师信手拈来这样的绝妙 illustration。
我的微博回应是,回复:明白了。可见作为 native speaker,第一眼也没 parse 出这种俏皮话似的语言双关。此类现象有多大普遍性,需要做个调查。 //@白硕SH:回复@立委_米拉:把“举”单用,也是一解。
这个问题的实质就是,到底此类现象有多普遍,算不算“过度思维”,值不值得去研究它,找出制度性解决方案?如果只是偶然为之的语言游戏,甚至“急智”不够的 native speakers 往往也不能 parse 这种双关的话,也许就算了。(当然闲得无聊的话,也可以去探讨机制性解决玩儿。)

好,这算是对《对付成语电脑是大拿,非成语现象呢》及其微博回应的回顾和总结。除了第三点是悬案,前两项已经没有疑问。空口无凭,笔记如上。



【相关】

对付成语电脑是大拿,非成语现象呢?

泥沙龙小品:搞自然语言的,不能过度思维

【置顶:立委科学网博客NLP博文一览(定期更新版)】





https://blog.sciencenet.cn/blog-362400-934716.html

上一篇:对付成语电脑是大拿,非成语现象呢?
下一篇:应该给“十三舞” 的创作班子发大奖
收藏 IP: 192.168.0.*| 热度|

6 黄永义 唐常杰 张能立 武夷山 zjzhaokeqin bridgeneer

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 08:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部