《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委随笔:机器翻译万岁】

已有 6920 次阅读 2012-11-11 08:33 |个人分类:立委科普|系统分类:科研笔记| 机器翻译

机器翻译能走到今天是我们当年做梦也想不到的:技术进步起来真是没边儿
日期: 11/10/2012 12:27:27


30年前,我在社科院硕士报考专业上填写了“机器翻译”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。

现如今,汉语语法形式化(除了正在进行的工作外,包括在下的系统)还真没有见到大规模能实用的。按照传统的转换式机译的路子,没有足够强大的汉语文法支撑的自动分析,汉外机器翻译必然寸步难行,因为汉语分析是前提,然后才是转换和生成。

可谁能想到,机器学习越来越牛。人工翻译的双语资料作为人类活动的副产品,几乎“天然地”源源不断而来,因此成就了统计型机器翻译的飞跃式突破。什么分析,什么生成,统统绕过去,基本就是靠双语对照的记忆,直接施行转换。Google Translate 因此可以在同一个模型架构下,支持几十种语言的互译。这简直就是神迹,可却是技术的事实。


不要着急批评它翻译得不准确、不恰当什么的。想想吧,现在遇到任意一个网页,任何一种语言,只要轻轻按一下鼠标,就立即翻译过来了。译文再不济,也给你个大概齐,不仅立等可取,而且完全免费。(说句老实话,电脑翻译再不济,也比你学两年外语,带上词典死磕往往还要强一些。) 除了天堂,天下哪里有这样的美事?

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个类似系统数组合爆炸的问题。于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译。这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto,立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人,它的兴起伴随着新型计算机语言 Prolog 问世:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统。

机器翻译(MT)是自然语言处理(NLP)领域历史最悠久的应用方向,从上个世纪50年代初发轫,承载了中外几代不知道多少人的青春和梦想,也包括青年时代的立委。如今,梦想化为现实,嵌入式机器翻译在互联网无孔不入,已经成为普罗大众手中招之即来挥之即去的便捷工具,每时每刻在默默服务着千百万互联网用户。女儿学汉语用它,学西班牙语用它,去日本动漫网页也用它,用到对它熟视无睹,把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在,不时报以嘲讽:真笨。可机器翻译呢,谦谦君子,玉树临风,虚怀若谷,任劳任怨。对于已经天然成为女儿这代人生活一部分的机器翻译,我满腹机器翻译的历史和掌故,却不知如何给她诉说。耳濡目染,她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义,可是我还是无法象对同辈人那样娓娓道来,如数家珍,传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是一般意义上的代沟,是技术的跨越式发展造成了两代人迥然不同的视角,让人欣慰更感慨。

昨天晚上心血来潮,突然想到我的 NLP “超级科普”,应该也用英语写出来。可是一想到要一句一句重新来过,就发怵,打退堂鼓。又一想,better sth. than nothing,何不就用 Google 汉英机器翻译打个底子,然后顺一顺不就成了?这样做法当然不如自己重写或者自己完全手工翻译来得顺溜(flow),但省下时间 to kill kill 也还是值得的。

于是就有了这篇 OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5) 。不到一晚上的功夫就搞定,不禁高呼:机器翻译万岁!

(等闲来再进一步顺顺,改改语法修辞错)

    另:如果你忍受不了机器译文的粗糙和歪曲,请无视它,不必抱怨,多存感恩之心。不仅仅因为它是免费的,更主要的是,机器翻译在目前的功能主要是为不懂英文的人解燃眉之急,给个大概印象,不至于两眼一抹黑。我个人的观察是,有两种人会欣赏或感激机器翻译,一种是不识英文的网虫,终于全世界的网络对他/她开放了,有盲人重见光明、遵义会议遇到毛委员的喜悦;另一种是立委这样的机器翻译化石级元老,因为做过,知其艰辛,不得不为技术进步鼓与呼。何况使用得当的话,它的确是辅助翻译的省时利器。毛主席保证,没有自动翻译平台的辅助,我根本不会做任何翻译工作了,他至少节省了很多词典查询的时间。




https://blog.sciencenet.cn/blog-362400-631290.html

上一篇:花无百日红?
下一篇:把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发
收藏 IP: 192.168.0.*| 热度|

4 葛素红 马德义 曹聪 bridgeneer

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 16:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部