|||
节选译自:
K. Church 2011. A Pendulum SwungToo Far. Linguistics issues in Language Technology, Volume 6, Issue 5.
【立委按】此前的博文摘要编译过皮尔斯论,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助冻结,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。
3.4 皮尔斯的反对意见
比起敏斯基和乔姆斯基,皮尔斯在当代教科书上较少提到。但皮尔斯是对本领域有深远影响的ALPAC委员会主席以及著名的批评通讯“语音识别向何处去”的作者。真不明白现代教科书怎么可能冷待皮尔斯,无论从终结资助还是从作品引用率看,皮尔斯对领域的冲击力是如此之大。原因也许在于,比起敏斯基和乔姆斯基,皮尔斯的批评更难明述。很多学者试图回应他的批评,但几乎没有任何回应能像他原有的批评那样有力和可读。
皮尔斯一生成果累累,其中之一是他开发了脉码调制PCM(Pulse Code Modulation),一种与当今 WAVE文档格式紧密相关的语音编码方法,这类格式的声音存贮文件在PC电脑上非常流行。(WAVE 如今已经与术语raw digitalaudio,即“无损数字式音档”成为同义词了,见 http://www.codeguru.com/cpp/g-m/multimedia/audio/article.php/c8935/.)此外,皮尔斯曾在真空管研究上成就卓著,但也是他很快导致了真空管的消亡,因为他带领团队发明了晶体管取其而代之。皮尔斯的研究工作也涵盖卫星领域,后来他作为贝尔实验室的研究副总,在把卫星研究转化成商业应用上发挥了关键作用,成功开发 Telstar1,第一款商用卫星电子通讯产品。
总之,皮尔斯是一位具有非凡成就的顶级技术主管。与他争辩的另一方根本无法与他相提并论,其中包括一些没有希望获得终身教职的初级教授。这是一场不对等不公平的论战。但即便如此,也没有理由忽视他对领域的贡献,哪怕这些贡献给我们带来诸多不便。
他的ALPAC报告与“语音识别往何处去”都是非常值得研读的文献。网上很容易找到ALPAC原文(http://books.nap.edu/html/alpac_lm/ARC000005.pdf),但ALPAC报告比关于语音识别的这篇通讯要长得多。如果读者时间有限,建议先从“语音识别往何处去”着手,因为这篇通讯言简意赅,观点明晰。短短两页的通讯基本上论及两条批评意见:
系统评测:皮尔斯反对用演示(demo)来评测系统,也反对如今仍流行的种种系统测试方法。“即使给出了统计数据,语音识别的成功度还是很难测量。总体而言 ... 当 ... 对于 ... 系统可以达到 95% 准确率。在 ... 情况下,质量会急遽下降。很难鉴定这样的语音识别系统能不能成为实际可行的经济上合算的应用产品。”
模式匹配:皮尔斯反对当今研究仍流行的模式匹配技术(如机器学习和语音识别),斥之为巧妙的欺骗(artful deception ),“比起科学更容易投机取巧而快速成功”。
模式识别批判
皮尔斯以魏岑鲍姆(Weizenbaum)开发的伊莉莎(ELIZA)程序作为他“巧妙的欺骗”的注解。该程序模拟咨询大夫与患者人机对话。伊莉莎或许可以通过图灵测试(Turing Test),但它显然没有任何“智能”。伊莉莎批评从此成为对那些看上去比真实能力要强的智能程序的标准批判。维基百科对“伊莉莎效应”定义如下:http://joshgreenberg.name/post/153115039/wikipedia-eliza-effect。
“计算机科学中所谓伊莉莎效应,指的是人有一种趋向,在下意识中以为电脑行为与人脑行为相似。其实只是以简单的语言模式识别为基础的巧妙运用。从具体形式上看,伊莉莎效应指的是,‘人们阅读由计算机把词串成的符号序列,往往读出了这些符号并不具备的意义’。更一般地,伊莉莎效应描述这样一种情形,仅仅依据系统的输出,用户就把计算机系统理解为具有‘其控制(输出)软件完全不可能取得的内在素质和能力’,或者,‘以为(输出)反映了实际上不存在的更大的因果关系’。无论在特定还是一般的意义上,伊莉莎效应著名的一点是,甚至在系统的用户已经知道系统产生的输出是预定不变的,也不影响伊莉莎效应的出现。从心理学观点来看,伊莉莎效应源于一种微妙的认知失调,一方面,用户意识到程序编制的局限性,另一方面,他们对程序的输出结果依然盲信。伊莉莎效应的发现是人工智能的一个重要发展,说明利用社交工程,而不是显式编程,也可以通过图灵测试。”
魏岑鲍姆自己在意识到他的伊莉莎程序让公众如此信服后,反而成为人工智能的强烈反对者。以下是从他的书中标题为“难以理解的程序”一章摘录的(Weizenbaum 1976,第231-232页):
“这两个程序MACSYMA和DENDRAL与其他多数人工智能程序完全不同,它们牢牢建立在深厚的理论之上。...计算机当然还有其他许多重要的成功应用。例如,计算机可以操控整个石油精炼厂的流程,可以导航飞船,以及监测并在很大程度上操控飞船内的环境,以便宇航员履行任务。这些程序立足于数学控制论和牢固确立的物理理论。这种理论基础扎实的程序享有极其重要的优势,一旦程序走偏,监测人员可以发现它们的表现不符合理论的要求,从而可以用理论帮助诊断失败的原因。
“但是,大多数现有的程序 ...是没有什么理论基础的。 ...它们多是机会主义的 ...只要在多数预见场景显得‘可行’即可。 ...我自己的程序ELISA正是这种类型。伍诺格拉德的语言理解系统也是,...纽厄尔和西蒙的GPS 也在此列。”(见GPShttp://en.wikipedia.org/wiki/General_Problem_Solver)
魏岑鲍姆接着说,程序理应易于理解,并建立在坚实的理论基础之上,这种观点皮尔斯应该也会同意。
皮尔斯“巧妙的欺骗”的评论批评了很多领域用演示证明系统的常规做法,这些领域包括人工智能、语音识别以及所有用到模式匹配的地方(也包括现代机器学习的大部)。(Pierce1969, 第1050页)
“前述讨论适用于模式匹配的各个领域,具体领域的论证作为练习留给读者”。
模式识别自有其优缺点。优点是,模式识别可以巧妙应对许多科学难题,在实际应用中取得进步。但是这一优势也同时是其缺点。短期的取巧分散了领域的精力,无法顾及真正有意义的长远目标。
很多工程任务与语音合成一样有两类研究:一类是务实的工程路线(例如,衔接合成加磁带拼接),另一类是雄心勃勃的科学计划(如模拟人类发音机关的合成)。务实的方法在一般情况下更有可能在短期内产生更好的结果,但学界应趋向于激励更有前途的科学路线。对于开放的重大科学问题,不要投机取巧,直接研究它们会更有机会取得进展。话虽这么说,如果你在工业界领导一个语音合成产品,为了在预算内按时开发一个质量不错的产品,采用任何工程手段和技巧都是题中应有之义。
回应
针对“语音识别向何处去”曾有很多回应,但是多数回应都没能有效应对上面提到的两条主要批评:
1. 现今发表所需要的这类评测方法究竟有何意义?
2. 与科学相比,模式匹配的意义何在?
罗和威尔盆(Roe andWilpon 1993)论述道,在提出“语音识别向何处去”以后的25年中,领域的发展已经把所谓“无谓”的努力演变为商用的现实。文章开头介绍了隐式马尔可夫模型(HMMs)类的流行方法,这些方法基于皮尔斯所反对的模式匹配技术。接着提到当今常用的评测方法。评测旨在展示模式匹配技术的有效性,然而评测带来的结论正如皮尔斯归纳的那样:“难以琢磨”(Roeand Wilpon 1993, 第58页)。
“在实验室条件下,语言识别器对于声音的模式匹配相当准确。然而,在‘真实世界’的条件下,错误率会高出很多”。
ALPAC 黑皮书
相当长的ALPAC黑皮书提出了很多反面意见,其中许多批评令人尴尬,也很难回应。结论篇首先提到一些好消息(Pierce et al.1966, 第30页):
“如今仍有理论语言学家对实证和计算都不感兴趣,也有应用语言学家对十年来的理论进展无动于衷,对计算机也很木纳。但是,比以往任何时候都有更多的语言学家尝试把微妙的语言理论与更丰富的数据相结合,他们中几乎所有人,无论在哪个国家,都渴望计算机的支持。前一代人需要一辈子来做的一些语言工作(譬如建立对照语库、词汇表、肤浅的文法),如今借助计算机几个星期即可完成。在对于作为人类交流工具的自然语言的理解方面,人类的确迈出了万里长征的第一步。”
但好消息随后紧接着就是不那么好的消息(Pierceet al. 1966, 第30页):
“但是,我们尚不具有明确而容易使用的电脑处理语言数据的好方法。”
作为回应,斯蒂德曼(Steedman 2008)比较我们的领域和物理,指出并没有类似ALPAC的黑皮书去困扰物理:“没人去告诉周围的物理学家该做什么。”斯蒂德曼表明我们的领域会处于更好的状态,如果我们更有纪律,并避免在公共场合晾晒脏衣服。
我们其实没必要羡慕物理领域的状态,以此排斥ALPAC。这种回应不仅针对性弱,而且事实上,物理学根本就不处于一个学界令人羡慕的位置。曾经有一段时间,物理学确实处于相对良好的状态,但那是很久以前。物理学的冬天已经延续太久,以至于许多天才不得不转行另谋生计了。前物理学家促成了许多领域的进步,包括我们领域也感兴趣的几个方向,譬如机器翻译和机器学习等。至于脏衣服,物理学同样表现不佳(关于物理学的批评意见,请参见http://www.thetroublewithphysics.com)。
甚至连ALPAC黑皮书也指出,计算语言学比物理有许多优势(Pierce et al. 1966, 第30页):
“我们看到计算机为语言学家预备了一系列新的挑战、见地和机会。我们相信,这些挑战可与粒子物理面临的挑战、问题和见地类比。毫无疑问,语言在所有现象中的重要性是首屈一指的。而且计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理小太多了。”
哈钦斯(1996, http://www.hutchinsweb.me.uk/ALPAC-1996.pdf)在ALPAC报告30周年时在《机器翻译国际新闻》著文“ALPAC:(臭名)昭著的报告”,总结道:
“ALPAC对机器翻译持怀疑态度是有一定道理的:当时的机译质量无疑非常糟糕,确实没有正当理由得到那么多的资助。黑皮书也正确地指出要加强半自动的机助翻译,并强调需要加强更多的计算语言学的基础研究。然而,可以诟病的是...”
哈钦斯继而批评黑皮书太过美国中心,而机器翻译问题本应从更广阔的全球语境中来考察。既然基调如此严肃,他的美国中心的批评就显得很单薄。如果从美国角度来看,机器翻译技术质量不好,费用昂贵,难道换一个角度就会对他人比较合适?
事实上,ALPAC报告之所以在领域的历史上显得臭名昭著,是因为它直接导致了资助寒冬,尤其是在美国方面。然而,报告(第34页)实际上建议在两个不同方向上加强资助:
1 对于语言学和计算语言学的长期的基础学术研究,以及
2 对于实用的短期应用以便提高翻译现场的质量
第一类基础研究方案必须建立在同行评议的基础上,凸显其科学价值,而第二类应用程序应该着重于实用的指标:速度,成本和质量方面的评估。
皮尔斯的这两个建议表现了皮尔斯其人的两个方面,使皮尔斯与乔姆斯基和香农立场有异。一方面,皮尔斯是基础科学的坚定支持者。皮尔斯反对任何扭曲科学,以科学的名义兜售其他东西(例如,应用程序)的企图,以及以误导性演示和盲目的指标(如我们今天所热衷那些例行的评估)指引科学的发展。另一方面,皮尔斯也有实用的一面,他在语音编码,真空管,晶体管和通信卫星等领域所取得的非凡成就即是明证。他是应用工作强有力的支持者,但所用的规则与基础研究完全不同,例如强调从商用案例出发。应用工作要按应用工作来评估(根据商用的标准),而科学必须被评估为科学(基于科学共同体的同行评审)。
如果皮尔斯今天还活着,他会深深地被学界的现状所困扰。太多的投资投入了模式匹配技术和数值评估的方式上,干扰了他认定的作为核心科学问题的学术发展。
从积极的方面看,皮尔斯的应用一面应该会对谷歌的商业成功留下深刻印象,尤其是在搜索方面。尽管如此,谷歌的边缘业务如语音识别和机器翻译是否可以称作成功,从他的角度应该还有疑问。虽然我们有理由对这些领域保持希望,像皮尔斯这样的怀疑论者会觉得,比起过去的几十年研发的巨额投资,机器翻译和语音识别的应用成就仍然不能令人满意。作为一个合理的投资回报,现在的语音识别和机器翻译应该产生一个杀手级应用的东西(killer app),使得几乎每个人每天都离不开它,就像当年AT&T的电话,或者像微软视窗或谷歌搜索一样。谷歌的搜索业务已经实现了这个理想,也许有一天他们的语音和翻译的边缘业务也最终可能达到这一目标。
皮尔斯今天能给我们提供什么?迄今为止,该领域已经做得很好,采摘了不少低垂的水果。在有很多简单采摘的好时光里,我们自然应该充分利用机会多加采摘。但是,如果这些机会逐渐枯竭,我们应该更好地遵循皮尔斯的教诲。也许我们到了认真面对核心科学挑战的时候,而不是把精力投入继续寻找越来越少的容易采摘的果实。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社