《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

已有 5194 次阅读 2012-11-12 15:44 |个人分类:立委科普|系统分类:科研笔记| 机器翻译, 掌故

提上来:把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

这两天要写的话题太多,怕断了线。
日期: 11/12/2012 01:41:12

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。

曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个貌似系统数量组合爆炸的问题(n 个语言需要编制 n**2 套系统)。

于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译(采用媒介语,n 个语言只需要编制 n(n-1)/2 套系统)。

媒介语这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto,立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。

第二类合一文法的研究在理论上也很诱人,它的兴起与新型计算机语言 Prolog 紧密关联:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,把语言规则的条件表达为对于语言单位的不同features 的制约信息,这些 features 在语言的小单位逐渐组合成大单位的过程中不断融合,语言信息丰富起来,达成对语言的分析结论。

在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。

长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统。

机器翻译是一个相当特别的 NLP 应用,特别之处就在于海量 labeled data,即人工翻译双语对照库的普遍存在。它不但成就了统计型机器翻译这个方向,也在机器学习和传统规则系统的消长方面起了作用。据说,微软NLP研发方面资源调配的转机也是由机器翻译触发的。

微软的故事是这样的。在统计方法还没成熟的前机器学习时代,NLP 的主导自然是语言学家编制的规则系统,当时的争论和竞争不在用统计还是规则,机器学习还是手工编制,而是如何把规则与过程(算法)分开,因为早期的规则系统规则是直接编写到程序里面去的,非常不利于系统调试。当年做得最先进的规则系统之一是 IBM 的一帮(计算)语言学家,他们着重系统的鲁棒性,编制了一套 broad-coverage 的英语句法分析器(parser),并成功应用于对百科辞典中的定义的自动分析。具体细节忘了,总之是 IBM 的这些研究家的自动语言分析工作引起了比尔盖茨的兴趣和注意,当时微软正在处于爆炸增长期,野心勃勃,财力雄厚。于是盖茨把这个队伍挖过来成立了自然语言研究部。有微软帝国最高领袖的支持,这个部门大规模扩张,雄心勃勃开始了多语言并举的自动分析研究,正在加拿大攻读博士的立委当年也被 short-listed 去微软面试中文NLP研究的职位。这支队伍做出了一个非常具有观赏性质的语义表达系统,叫做 MindNet,该系统通过自然语言自动分析词典和百科全书的词条定义,挖掘出概念之间的种种语义关系,形成一个错综复杂概念网络,demo 起来令人印象深刻。可是,在很长一段时间,这个研究组没有找到利用 MindNet 解决实际问题的大规模应用,部分原因应该与 cyc 手工编制常识网络而无法应用的情形类似:overhead 大,功效却不大,因为用知识处理来支持智能系统的开发,相比把智能活动当成黑匣子的机器学习方法,既不够直接、鲁棒,又难以 scale up。总之 MindNet 没有大规模实用。另一方面,各语言的几年开发也都做出了自己的分析器(parsers),于是他们尝试利用这些分析器支持一些 NLP 应用,包括机器翻译,当然这些系统都还在实验室内,没有成熟到可以产品化的阶段。

时光荏苒,话分两头,(待续)

有意思的是,IBM 研究院的另一部分人是统计机器翻译的先驱,最早在实验室证明了统计机器翻译是可行的一个路子,当然当时的系统很粗糙,质量还是无法与传统的基于人工规则的机器翻译相比。

(未完,写了一半太困就睡了,后来没顾上后续: 今后续不续看情绪吧)

http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&quickforward=1&id=631290



https://blog.sciencenet.cn/blog-362400-631833.html

上一篇:【立委随笔:机器翻译万岁】
下一篇:【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】
收藏 IP: 192.168.0.*| 热度|

7 蔣勁松 曹聪 陈小润 刘洋 武夷山 张玉秀 鲍海飞

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 12:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部