《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

DLT项目背景介绍

已有 5013 次阅读 2010-1-12 03:23 |个人分类:世运资料|系统分类:科研笔记| 荷兰, 机器翻译, 世界语, 媒介语, DLT

[DLT项目背景介绍]

BSO公司当时是荷兰第二大软件公司,总部在离阿姆斯特丹两个小时车程的 Utrecht 城。1982-1983年,由 Toon Witkam 先生牵头,在欧洲共同体资助下,完成了一项利用世界语作为媒介语(又称“中间语言”,interlingua)的多语言自动翻译的可行性研究报告。传统的机器翻译多采取转换式(transfer),需要针对每一对源语和目标语编制专门的规则系统。这种转换法用于多语自动翻译,随着语言对的增加,存在一个组合爆炸的问题:n 种语言需要编制 n**2 套转换子系统,而采用媒介语则只需要 n(n-1)/2 套子系统。以欧洲共同体常用的8种语言计算,共有28个语言对,传统的系统需要开发出64套转换式规则系统,而采用媒介语则只需要16套子系统(8套翻译成媒介语,8套从媒介语译出)。这是简单的算术,所以媒介语方案对于多语系统的经济性早已成为共识,学者们争论的主要是究竟采取什么样的媒介语合适。另外一项共识是,自然语言(比如英语、汉语或俄语)作为媒介语是不合适的,因为自然语言普遍存在歧义和不规则的惯用法。理想的媒介语应该是规则而没有歧义的,所以很多学者认为应该人造一套形式系统作为媒介语(比如当年由日本牵头的东亚各国合作的一项多语翻译开发系统使用的就是设计者自己定义的形式系统作为媒介语)。Witkam 不同意这种看法,主要论点是形式系统作为媒介语往往失之简陋,毕竟象语言这样复杂的系统,不是一蹴而就的形式系统能够涵括的。不仅如此,形式系统虽然适合机器处理,可是作为中间表达,不如人类语言那样易读,不利于语言工作者调试系统。这样看来,世界语这种有了100年发展历史的“人造语”比较合适,因为原则上它的语法是不允许有例外的。不过,跟所有实际使用的人类语言一样,世界语仍然存在歧义现象。因此,可行性研究中,他们还是对世界语做了“控制”,尽量排除其歧义,以适应机器处理的需要。其中有一项设计很巧妙,用来区分结构歧义。在自然语言处理领域,结构歧义的典型例子有所谓 PP attachment 的问题,即名词宾语后面的介词短语究竟修饰前面的名词还是谓语动词。比如:I saw the girl with telescope,如果是修饰名词,应该翻译成“我看见了带望远镜的姑娘”,如果是修饰动词,则应翻译成“我用望远镜看到了那个姑娘”。Witkam 小组提出的区别结构歧义的表达方法是,用介词跟前面的名词的空格数来决定:如果只有一个空格,那么机器就认为是修饰名词,如果是两个空格,则认为它修饰动词。这种表达方法的巧妙在于它用书面语的线性方式表达了需要三维的结构关系,方便了机器的还原处理。更绝的是这种表达不影响中间语言的自然性,毕竟人眼对于一个空格和两个空格是不做区分的,读起来跟普通世界语没有不同。

上述可行性研究在1984年赢得了荷兰政府经济部的资助,BSO 公司补足另一半,开始了六年的DLT (Distributed Language Translation) 分布式语言翻译的项目。所谓分布式,是设想该系统应用在电脑网络的环境下,源语到世界语的系统和世界语到目标语的系统分别在两端进行:在源语输入端遇到歧义,系统会直接提问作者以确定其含义,然后翻译成中间语言世界语,这是用所谓半自动交互式机器翻译来解决自然语言分析中最困难的歧义区分问题。(这个思路跟这几年流行的 semantic web 异曲同工,都是力求在源头上解决问题。)网络之间传输的是已经消除了歧义的世界语,各接收端根据需要,调用从世界语翻译生成目标语的程序,即用即调(on-the-fly),这个阶段是全自动的。这种分布式应用环境的设想似乎有点超前,如果推后五年,在网络热中寻找巨额投资是不困难的。可惜当年(1990)网络经济的概念还只是萌芽阶段。有人和,却没有天时地利。

DLT研究组在六年期间做出了原型系统(prototype),发表了详细介绍系统的理论和实践、印制精美的系列丛书,主持召开了一次机器翻译国际研讨会,与各国世界语者和语言学家合作,在统一的依存关系的框架下,编制了20多种主要语言的形式句法,应该说工作是卓有成效的。迄今,这一项目由于其描述之详尽,不少教授列为计算语言学课程的辅助材料。

BSO的这个DLT项目由于有 Victor Sadler 这样的世界语元老级人物的参与和宣传,在国际世界语界影响很大,引起了各国世界语者的关注,大家(包括笔者)对它的期许很高,希望借助世界语和世界语者的支持,为大规模解决语言问题提供一个切实可行的技术方案。世界语在系统的轴心地位也满足了很多世界语者的心愿,自愿为这个系统服务的各国世界语者很多,如果系统真到了大规模商业开发阶段,管理得当,这是一个不小的资源优势。记得当年听 BBC 中文广播电台,就有中国世界语者去信询问世界语的机器翻译问题,广播节目就特别介绍了荷兰科学家正在进行的 DLT 项目。可惜,1990年前后,他们在国际国内寻找后续资金的努力终于失败,研究组不得不解散,结束了这段世界语和机器翻译的蜜月期,令人扼腕。(不过,多年来,一直有人主张利用世界语机做器翻译做媒介语的方案。美国有一家公司 Unikom 做类似的尝试已经多年,不过也一直没有找到大笔资金做商业开发。其负责人跟我和Dan一直保持着联系。)

要想进一步了解媒介语和机器翻译的学术背景,可以参见我的机器翻译的介绍文章

Comments (7)

xfliu12月 17th, 2008 at 12:18 pm   edit

我的一个直觉是,语言的表达是模糊的,如果每次翻译的准确度为x%,那么以世界语作为中介两次翻译后准确度为x^2%。除非是技术文档,两次翻译后的文字可能是结构清晰,但是句子语义很别扭,甚至不能表达原意。

相反,一对一的直接翻译,可以在模式化的翻译过程中,强加一些特殊的修饰或处理,让翻译的句子易读。

不知立委如何高见。

(又注:你的“机器翻译的介绍文章”还没有细看。)

曾子后12月 18th, 2008 at 2:06 am   edit

语言的表达是模糊的,尤其是文学著作,可以是天马行空、飘逸朦胧,甚至反讽隐喻等等。。。。所以翻译被认为是再创作。。。。而现在结构的电脑是一个完整意义的“机器”,其优势体现在“运算”、“速度”、“记忆”、“逻辑”等能力,,,,,,而“思考”、“创新”、“模糊判断与决策”、“学习”等能力及其有限。。。。所以我对机器翻译研究工作完全持否定态度。。。

liwei12月 18th, 2008 at 3:07 am   edit

机器翻译面对的是资料,而不是文学作品。谁要读机器翻译的文学作品呢?除非为了搞笑。

xfliu 的说法是有道理的,通过世界语作为媒介语做翻译,是转手两次,质量会受到影响,总体不如源语到目标语转换基础上的翻译。用媒介语纯粹是为多语翻译开发的经济上的考量,而不是因为质量优越与双语转换法。

有人做过实验,就是勤勤恳恳的复印机,复印 n 次(n 足够大)也会模糊一片。

曾子后12月 18th, 2008 at 3:25 am   edit

“资料”该如何定义?

曾子后12月 18th, 2008 at 3:28 am   edit

我承认我所举的文学作品的例子太过偏颇,,但我坚持认为研究“机器翻译”是徒劳。。
期待被博主说服:-))

liwei12月 18th, 2008 at 4:32 am   edit

“资料”该如何定义?

非文学的文字。极端的例子包括天气预报。

事实上,机器翻译50-60年的研究历史上,公认的最成功的机器翻译的应用,就是加拿大的在英语法语之间做天气预报翻译的系统 Meteo. 由于领域的限制,翻译质量已经达到人工的水平。

“机器翻译”不是徒劳,已经是现实。如果网上的翻译系统让你感觉失望,至少你必须承认,如果你对某网页的语言一无所知的话,利用机器翻译,你可以获得信息,对该网页的内容有了一个大概的了解。如果是欧洲语言之间,其翻译质量是很可以接受的,有可读性。当然,也有很多生硬、别扭或者误译的地方。

机器翻译历史上,1966年(正好是中国文革开始,一切研究中断的时候),美国政府曾经对机器翻译项目做了一个评定,其结论与你说的一致,对机器翻译持基本否定的态度(史称“黑皮书”),断定机器翻译在可预见的未来是没有前景的。这个黑皮书使得美国50-60年代对机器翻译研究的大规模资助几乎全部冻结,机器翻译研究在美国和中国同时进入了寒冬。

现在,已经很少有人完全否认机器翻译的研究和作用了。

曾子后12月 18th, 2008 at 5:01 am   edit

谢谢博主提供的信息,,我会去学习一下,,先保留我自己的看法。。

http://www.de-sci.org/blogs/liwei/archives/12461



https://blog.sciencenet.cn/blog-362400-286063.html

上一篇:mirror - 轮胎的阻力来自哪里?
下一篇:《立委随笔:熵和世界语》
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 12:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部