《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委科普:机器可以揭开双关语神秘的面纱》

已有 5439 次阅读 2015-11-3 04:44 |个人分类:立委科普|系统分类:教学心得| NLP, 双关语

这是微信中疯传的一个段子,彰显汉语的微妙:

一老外来华留学4年,主攻汉语。临毕业,参加中文晋级考试,题量超少,暗喜。再仔细一看,懞了!题目如下:

一、请写出下面两句话的区别在哪里?

1、冬天:能穿多少穿多少;夏天:能穿多少穿多少。

2、剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。

3、女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。

4、单身的原因:原来是喜欢一个人,现在是喜欢一个人。

二、附加题:

1.男人对一个女人有好感的原因,一是喜欢上这个女人,二是喜欢上这个女人。

2,男人约会迟到的原因,一是睡过了,二是睡过了。

老外泪流满面,交白卷,回国了。

老友说:“别回国,把这题交给伟哥的NLP做做”。

不错,汉语确实很多微妙的地方,双关语是展示其微妙的很好的语言游戏。但仔细看这些双关语,发现大多有迹可循。其实,很多事NLP想做就可以做,问题是值不值得做。NLP理解语言不需要奇迹,但是可以创造奇迹。那些双关语的语言游戏,内部的结构并没有那么复杂,要做就可以做,只是做实用系统,双关语还排不上队,属于不值得做的“过度思维”,一般不是机制上的问题。 For argument‘s sake,我们拿这句为例来说明:

“能穿做多少就穿多少。”
这实际就是“多少”的词典二义性问题。“多少” 在词典,其内部结构是副词修饰形容词,因修饰关系的不同,而有两个含义,就是:(1)表示程度感叹:多么地少(how little); (2)表示疑问的“多少”(how-much)。这两个含义是词条本身就可以确定的事儿(可能性),不需要词典以外的东西。做实用系统的时候,往往只取其一,就是取可能性大的那种,就是(2)。因为(1)不值得做,不是不能做。
词典就是强盗,天然不需要道理。古人早就说了,名无固宜,约定俗成谓之宜,说的就是词典的强盗性质。这里没有高深的语义和逻辑,有的就是硬性的绑架。因此词典也被称为垃圾箱。只要是词典可以预示的东西,一般不是机制的问题。强盗逻辑的最简单的办法是替代法,就是在一个词条有歧义的时候,用等价说法来替代。我们可以在“多少” 的词条下,绑定两个说法: (1) 多么地少 (exclamation)(2)多少(how-much)。很据词典的强盗逻辑,可以设想,系统把句子做如下替换:
(1)能穿多么地少就穿多么地少。
(2)能穿多少(how-much)就穿多少。
这两句进入 parser,如果 parser 不能处理好这两句,那才是 parsing 的问题。
一般来说,对于形式系统,强盗逻辑是不需要理论的,直接encoding绑架就好了。但是约定俗成也是有过程的,硬要理清脉络的话,情况是这样的:morphology 内部,多少(1)就是程度副词修饰形容词,多少、多好、多了不起,都是如此。多少(2)的构词法循的是另一条路数,是疑问副词修饰形容词,类似英语的 how much or how little,当疑问副词修饰形容词的时候,这个形容词的含义中性化了,因为它的本质是提供一个维度,而 how 问的就是这个维度的程度。这样一来,少 与 多 在这个结构里面的含义趋于等同。how little 与 how much 是问的同一个维度。how tall 与 how short 也是如此。能穿多少就穿做多少(2),也可以等价地说成,能穿多多就穿多多。类似于,“立委有多高”等价于“立委有多矮”。nuance 不计。
小结一下:双关语的语言学及其形式化大体如此。里面没甚么奥妙,不少是词典的强盗逻辑,没有多么高深的人工智能在内(当然,如果要加入语用场景作为消歧的最终选择的话,可以在接近产品的应用层面做,domain 越窄越好办,open domain 不好做语用)。句法上要识别是可以做的,主要看统计上值得与否。如果做产品,譬如 intelligent assistant 或 Siri 这样的,最好的办法就是只识别,不消歧,做成交互式,这样把负担转嫁给人,还显得机器特别聪明的样子。
"能穿多少就穿多少"
Siri:先生,您是说能穿多么地少就穿多么地少么?我觉得您是说的另一个意思,对么?
实现这个,强盗替换逻辑足矣。词典可以搞定,根本就没有句法的事儿。
最后提一句,英语的 how 也具有同样的强盗歧义:作为程度副词,用于感叹句;作为疑问副词(默认),用于疑问句:

How beautiful!

Everybody says it is beautiful.  I am wondering how beautiful it really is.  Can it be more beautiful than my hometown Huangshan?

说到这里,索性谈一下关于人工智能的一些感受。人的本性对于未知的事情,就要把它神秘化。学业有专攻,各人背景不同,但我们大多免不了这么个思维定式。对自己不懂的,要么无视或否定(闭上眼世界就不存在),要么就神秘化它。
就说这 self-learning 吧,听上去就很 AI,而且是高级的智能。后来我自己做过一个句法的 self-learning 的实验,才发现根本不神秘,是完全可能的。但是如果我不戳穿里面的奥秘(奥秘就是 propagation),外边的人就会觉得不可思议,怎么可能让电脑自动提高 parsing 的质量呢?换句话说,怎么可能取法乎中,亦可得上呢?
老友感叹: how magical

老朽笑曰:

:) magic and ignorance go hand in hand, hence the AI bubble, which in effect benefits all of us

咱们回到前面的双关语游戏,过一遍识别这些双关的奥秘,基本都是词典或简单句法的事儿,NLP 有清晰的脉络可以形式化地实现它,主要是值得不值得去做,而不是能不能做:

1、冬天:能穿多少穿多少;夏天:能穿多少穿多少。

“多少”,词典识别(感叹vs.疑问:多么地少,how much): (1)能穿多么地少穿多么地少;(2)能穿 how much 穿 how much 

2、剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。

“谁都Vt”, 句法识别(主语vs宾语):(1)谁都看不上 【】,(2)【】 谁都看不上

3、女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。

“等着吧”,词典识别(及物vs不及物:等着【】;等着瞧):(1)你就等着【】吧;(2)你就等着瞧吧。

4、单身的原因:原来是喜欢一个人,现在是喜欢一个人。

“一个人”,词典识别(强调副词vs,名词:单个儿;某个人):(1)喜欢个儿;(2)喜欢某个人

二、附加题:

1.男人对一个女人有好感的原因,一是喜欢上这个女人,二是喜欢上这个女人。

“上”,词典识别(趋向小词vs及物动词:开始V;Vt【】):(1)开始喜欢这个女人;(2)喜欢上(Vt)这个女人

2,男人约会迟到的原因,一是睡过了,二是睡过了。

“睡过了”,词典识别(后果vs时态:睡过头;已睡过):(1)睡过头了;(2)已经了。


【沙龙补记】

我: 世界上怕就怕认真二字,昨晚对“双关语”认真了一回,发现微妙的外表下面,是简单的实现可能,绝大多数双关不过是一词多义而已,识别它没有难处。

自动消歧自然是难,但是有消歧的必要么?双关之所以叫双关,就是否定消歧的必要性。

白:笑话就是先放纵局部优势理解成气候,后把局部优势理解颠覆掉的过程。这个过程比结果更有意义。

我: 优势理解就是缺省,非缺省值可隐藏(到优势理解被否定后再用,被否定的最简单办法就是故作聪明地去问信息的主人或受者,当年 askjeeves 的模板玩的就是类似的花招),也可忽略(不值得做)。

总之在应用现场,这个不构成难题。看上去需要高智能的东西,简单的算法即可搞定。人类智能其实经不起这么分解。分解以后,纯粹地属于人的智能所剩无几。

白: 所以,死硬派最后一条短裤都剩不下。非缺省的选择,能排出TOP3足矣。谁有时间跟你逐个纠缠。

我: 凡是功能性的能力,包括语言理解,属于人的地盘总是越来越小,失去领地的速度常常超过我们以前的预计。再过100年,也许只有艺术还可以保存自己的领地,这个还不包括快餐艺术。

从这个角度,我们没有理由不对人工智能怀有信心。有一点已经很清晰了,人工智能在很多层面会超出表现中庸的万物之灵,更不用说滥竽充数者。只有各领域的精英,AI 可能还有距离。

结果就是,各行各业的庸医都会被取代。

对于 tractable 的任务,甚至精英都可能被打败,原因很简单,人再精英,也没有那么大的存储,没有那么快的计算,也没有不受情绪和困倦干扰的保障。我是外语专业的,学了一辈子英语,又有语言学的培训,自认为自己对英语的理解大概算精英级了吧。可是,在不断地开发英语 parser 的过程中,越来越多地发现,复杂句子的分析常常超过我的能力。机器是我训练的,怎么能超出他的主人?实际上还真是这样。


你只要一点一点地把知识灌输给它,如果体系架构和方向设计合理,最终你会发现,它就是超出了你的能力。这一点听上去有点让人丧气,可是还是让 AI 感到鼓舞。

马: 我觉得在很多方面AI的单一能力都可能超越人类,但综合能力就不行了。至少现在还看不出任何苗头。所以根本不用担心什么AI统治人类的问题,完全是忽悠。

我:  统治人类是胡扯,除非你把原子弹的按钮置于机械手的掌控之中,相信它可以做出比人类更理性的决定。


科学网—《科研笔记:中文图灵试题?》

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-932955.html

上一篇:钩沉:《中国报道》上与导师用世界语发表的第一篇论文
下一篇:贴身小蜜的面纱和人工智能的奥秘
收藏 IP: 192.168.0.*| 热度|

1 姬扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 18:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部