博文

【立委科普：机器翻译】

已有 9805 次阅读 2009-12-13 04:09 |个人分类:立委科普|系统分类:科普集锦| 人工智能, NLP, 机器翻译, 自然语言

MACHINE TRANSLATION
By Wei Li liwei999 AT gmail.com (In GB code)
本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学
科的最新发展水平, 又能让一般读者容易理解。

立委一九九六年六月二十五日于加拿大温哥华
-------------------------------------------------------------------------------

[电脑知识]

机器翻译

立委

又称自动翻译, 是按照规定的算法由电子计算机进行语言翻译。它是计算语言学的主要研究领域之一。

机器翻译通常由机器词典和语言规则库支持, 其对象为自然语言。机器翻译是一种自然语言处理应用软件。与此相对应, 还有一种系统软件, 专门用于把用计算机语言编写的程序自动翻译成可执行的机器代码, 这在计算机科学中叫编译器或解释器。编译理论和技术已经相当成熟, 它与自然语言的机器翻译有相通之处。

与计算机语言相比, 自然语言有两个明显的特点:

首先, 自然语言普遍存在同形多义现象。在词汇层, 一词多义, 词类同形等现象随处可见, 而且越是常用的词其意义和用法越多; 在句法层, 结构同形也相当普遍, 同一种结构也可能表达多种含义和关系。因此, 区分同形和多义成为机器翻译的首要任务。

其次, 自然语言是规则性和习惯性的矛盾统一体。自然语言中, 几乎没有一条语法规则没有例外。然而, 如果把语言规则组织成从具体到抽象的层级体系, 区别个性规则和共性规则的层次, 建立个性和共性的联系方式, 就为解决这一矛盾创造了条件。因此, 在设计机器翻译系统的算法时, 如何把握和处理个性与共性的关系, 在很大程
度上决定了系统的前途。

机器翻译通常包括五个环节: 源语输入; 源语分析; 源语到目标语的转换; 目标语生成; 目标语输出。

源语到目标语的转换
(1)

源语输入 ============================> 目标语输出

I
形态分析 ======================> 形态生成

句法分析 =============> 句法生成

III
语义分析 =====> 语义生成

语用加工, 知识推理

(2)

元语言

对于书面语, 输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以"听"和"说"的能力, 这是语音识别和语音合成所研究的课题。

源语分析的结果用某种中间形式表示。转换包括词汇转换和结构转换, 它反映源语和目标语的对比差异。生成是分析的逆过程。可见, 只有转换才必须同时涉及两种语言, 源语分析和目标语生成可以相互独立。这种设计思想称作转换法, 是当前机器翻译系统的主流。当然, 也可以把转换放到分析或生成中, 用所谓直接法进行自动翻
译。

直接法和转换法各有其优缺点。运用直接法的系统结构紧凑, 翻译过程比较直观,规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其主要缺点是, 由于分析和生成不能独立, 使得分析和生成都难以深入; 另外, 对于多种语言之间的自动翻译, 直接法是不适合的。转换法也有缺点: 尽管可以分析得比较深
入, 但多了一个环节, 多了许多接口信息, 处理不好反而影响译文质量; 另外, 在不同语系的语言之间, 要想得到较高质量的翻译, 其转换模块(主要是词汇转换)势必很大, 大到与分析和生成模块不相称的地步, 这差不多等于回到了直接法。看来, 对两个差别比较大的语言进行自动翻译, 直接法还是很有效的。

究竟分析到哪一步实施转换, 是由系统的设计目标, 加工对象和研究深度等条件决定的。从上图可以看出, 分析越深入, 转换便越少, 最终达到没有转换。分析一下两极的情形是很有意思的, 即: (1) 只有转换的翻译; (2) 没有转换的翻译。

只有转换的翻译是一一对应的翻译, 不需要分析和生成。翻译只是机械的数据库查询和匹配过程, 谈不上任何理解。需要指出的是, 对于语言中纯粹的成语和习惯表达法, 这种翻译方法不仅是有效的, 往往也是必需的。

机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。

考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。

另一方面, 人类可以用语言交流思想, 语言可以相互翻译, 必定有某种共同的东西作为基础, 否则一切交流和翻译都是不可思议的。概念, 或者更准确地说, 概念因子(即构成各种概念的元素)是全人类一致的。概念与概念间所具有的逻辑关系和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚, 把它定义成元语言, 源语分析以元语言作为其终极表达, 目标语生成也以元语言作为出发点, 就不需要任何转换了。这时候, 源语分析和目标语生成便完全独立, 每一种语言只需要一套针对元语言的分析和生成系统, 就可以借助于它自动翻译成任何其他语言。研究元语言是认知科学中的一个难题, 有待于语言学家, 逻辑学家, 心理学家, 数学家和哲学家的共同努力。有意义的是, 研究机器翻译的学者们设计过种种近似元语言的方案, 作为多种语言之间自动翻译的媒介语, 取得了一定的成果和经验。

总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译, 对于应用型机器翻译系统的研制, 往往没有益处。

除了上述的两极, 人们根据转换所处的层次, 把机器翻译系统大致分为三代:

第I代是词对词的线性翻译, 其核心是一部双语词典, 加上简单的形态加工(削尾和加尾)。I代系统不能重新安排词序, 不能识别结构同形, 更谈不上多义词区分。

第II代系统强调句法分析, 因此能够求解出句子的表层结构及元素间的句法关系 (分析结果通常表现为带有节点信息的结构树), 从而可以根据源语和目标语的对比差异进行句法结构的转换和词序调整, 这就从线性翻译飞跃到有结构层次的平面翻译。然而, 在没有语义的参与下, 虽然可以识别句法结构的同形, 但却不能从中作出合适
的选择; 多义词区分问题也基本上无法解决。

第III代系统以语义分析为主, 着重揭示语句的深层结构及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。

目前, 多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分析为核心的III代系统只做过小规模的实验(Wilks, 1971), 但也取得了令人瞩目的成就。从工程和实用考虑, 大型商品化机译系统的研制, 采用句法分析与语义分析相结合的方法, 是比较切合目前的研究水平和实际需要的。

从方法上看, 语言规则和算法分开是自动翻译技术上的一大进步, 算法从而成为系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库, 而是把规则编在程序中, 这带来三个严重的缺陷: 第一, 规则的每一点修改都要牵涉程序的变动; 第二, 无法提高机器翻译算法的抽象度, 从而影响了语言处理的深度和效率;
第三, 不利于语言学家和计算机专家的分工合作。

值得强调的是, 规则与算法分开以后, 只是从形式上为规则的增删修改提供了方便, 真正的方便取决于规则的结构体系, 具体地说, 就是规则与规则的相互独立程度。如果规则彼此依赖, 牵一发而动全身, 就谈不上修改规则的自由。这样的网状规则系统在规则数达到一定限量以后, 就无法改进了: 往往改了这条, 影响那条, 越改越糟,
最终可能导致系统的报废。因此, 在规则和算法分开以后, 有必要强调规则与规则分开。

随着信息社会的到来, 人工翻译的低效率已远远不能满足社会的需求, 迫切需要计算机帮助人们翻译。目前, 世界上已有一批机器翻译系统投放市场或投入运用, 更多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。在大陆，继“译星”一鸣惊人后, 近年又有两套英汉系统分别投放市场, 一套为中国社会科学院语言
研究所和北京高立电脑公司所研制开发,另一套是中国科学院的863项目，竞争日趋激烈。机器翻译经过40多年的发展, 对语言的认识逐步深入, 发展了许多行之有效的语言处理技术。其前景是令人乐观的。

寄自加拿大

姐妹篇：【立委科普：信息抽取】: http://www.starlakeporch.net/bbs/read.php?45,20654

何人可12月 6th, 2008 at 5:18 pm

贤弟十二年前的旧作今天读来仍有不少新意，如基于语义分析的机译，和语言规则的独立性的重要。这些年我一直在关注NLP和MT的进展，但机器翻译的出路是在哪儿呢？我认为基于概念的机器翻译是个方向，不知你是否有所涉及，有何心得？

liwei12月 6th, 2008 at 7:08 pm
何兄謬爱。我其实已经离开这个领域不少时间了，知识陈旧了。

从应用上看，由于海量双语对照文库的存在，由 IBM 研究人员等开端的统计一派现在成为业界主流，基于对等翻译单位（translation unit, 可以是词，词组或成语）的统计信息的系统已经达到实用开发的程度。这实际上是词汇转换（lexical transfer）路线的翻版，直接在源语和目标语之间建立联系，跳过显性的概念手段。

所谓基于概念的翻译原理上没有问题。概念从最低处说包括从词到概念的转换，涉及多义词区分（word sense disambiguation）的难题（从概念转换到目标语的词原则上不是难题，即便一个概念对应多个目标词，选错了也不影响整体意义，影响的是翻译的地道程度）。WSD本身是NLP中最艰难的问题之一。如果基于概念进一步包括“表层结构”到深层逻辑结构的转换的话，那么基于概念的翻译也就是我文中所说的基于理解的翻译了，真正属于人工智能的范畴了。

【姐妹篇】【立委随笔：机器翻译万岁】

《立委科普：自然语言处理领域中的语义路线及其代表人物》