NLP 历史上最大的媒体误导:成语难倒了电脑
已有 7731 次阅读
2012-1-4 16:27
|个人分类:立委科普|系统分类:科普集锦|
normal, 笑话, 翻译, 电脑, 最大的
NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最:
说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语:
The spirit is willing, but the flesh is weak (心有余而力不足)
翻译成俄语后再翻译回英语就是:
The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了)
这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。
然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工智能”)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。
事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。
引用
成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。
当然要大词库,无论何种方式 建立,只要想做就可以做,因此不是问题。
所谓自然语言“理解”(NLU),就是把 open expressions 分解成词典单位(包括成语)的关系组合(术语叫 semantic compositionality)。凡事到了词典层,理解就终结了。无论semantic representation 如何摆弄,那都是系统内部的事情(system internal),与理解的本质无关。
【后记】为写这篇短文,上网查阅这个广为流传的笑话的原始出处,结果发现了冯志伟老师有专文讲述这个故事的来历和变迁,根据冯老师的考证,这个笑话是杜撰出来的(见 《冯志伟:一个关于机器翻译的史料错误》)。本文的主旨是澄清这一误解。杜撰与否并不重要,重要的是这个笑话的娱乐性以及媒体与大众对于娱乐的追求使得一种似是而非的误解经久不衰,得以深入人心。
【相关】
泥沙龙笔记:在知识处理中,很多时候,人不如机 2015-11-05
贴身小蜜的面纱和人工智能的奥秘 2015-11-04
有感于人工智能的火热 2015-11-03
《立委科普:机器可以揭开双关语神秘的面纱》 2015-11-03
再说苹果爱疯的贴身小蜜 死日(Siri)
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-525503.html
上一篇:
对于患者及其亲人,被医疗绑架不是最可怕的下一篇:
核聚变和“炼丹术”,同样是“工程”,模式不一样