《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

立委硕士论文:1. EChA概况

已有 3706 次阅读 2010-2-20 04:27 |个人分类:世运资料|系统分类:论文交流| 机器翻译, 世界语

      世界语到汉语和英语的自动翻译试验
          --EChA机器翻译系统概述


3页————————————————————————————————————————————————————

1. EChA概况

EChA (E-Ch/A: el Esperanto en la Chinan kaj Anglan Lingvojn) 系统是以世界语作为源语, 以汉语和英语作为目标语的一对多小型实验系统。它是一个句对句的, 分析和综合有一定独立性的全文机器翻译系统。本系统实现了翻译过程的完全自动化,不需要译前和译后编辑。(由于纯技术原因, 世界语中的几个戴帽字母暂时还需要用加 H 的复合字母来转写.) EChA系统从上机调试到打出译文只用了五个月, 全部工作历时近一年, 进展比较顺利。本系统使用的是IBM-PC/XT微型机, 编程语言 BASIC (Version D2.00), 同时选用IBM公司的BASIC编译程序软件包。EChACCDOS操作系统(即带有汉字库的PC DOS 2.10)支持。系统主体是六线分析和综合程序。另外还建立了三部词典, 两个词表, 编制了词典的造查, 扩充和维护程序。整个系统由近一万条BASIC语句构成。编程时充分利用了BASIC串处理函数, 显得特别方便。

这次试验共翻译了150多句世界语文句。汉语和英语的机器译文都通顺或可懂, 结果令人满意。(见附录) 提供本系统试验的源语素材有三部分: 第一部分是选自著名世界语作家Sandor Szhatmari的世界语原文著作 "Mashinmondo" (<<机器世界>>, 中国展望出版社)上的两段连续文章(12, P.100-101), 句子比较长, 结构也比较复杂。第二部分选自魏原枢和徐文琪编著的 <<世界语语法>> (上海外语教育出版社, 1982.10)中的典型例句(100多句), 这些例句(其中有一部分是日常用语)都具有一定的语言学特点, 表现了不同时态(简单时态,复合时态), 语态(主动语态, 被动语态), 语式(陈述语式,命令语式, 假定语式),不同的句式(简单句, 并列句, 复合句, 无主句, 独词句, 一般疑问句, 特殊疑问句, 等等),不同的句型以及动词的各种形式。总之, 它们具有相当的代表性, 基本上反映了世界语语法概貌, 这就弥补了连续文句特点单一的不足, 更有利于试验EChA系统的能力和适应性。最后作为一种尝试,还选译了两首世界语诗歌(第一首是著名的世界语者的颂歌“希望之歌”)

EChA由三大部分组成: 1) 机器词典; 2) 源语分析; 3) 目标语生成。源语分析部分包括了世界语的全部基本语法和常用句型。然而, 由于机器条件和实验周期的限制, 本系统的规模(特别是词典的规模)还很小, 有待于进一步扩充和改进。----准备从两方面来扩充EChA系统, 一是补充例句, 做扩大试验; 二是增加俄语和法语作为新的目标语, 进一步检验体现独立分析结果的中间语言CDC(层次递归成分体系,3节详述)的适应范围, 并探讨其完善的途径。另外, 时间仓促给系统还带来一些问题: EChA的结构还不是很合理, 算法有待于进一步优化, 规则和算法还没能分开, 在分析和综合的独立性上下了不少功夫, 但还没有完全独立。

尽管还有上述问题, 然而按照设计要求, 只要适当扩充词典, 系统就有能力处理世界语的绝大多数语言现象。在中国近三十年的机器翻译研究历史中, EChA是第一个以世界语为研究对象的机译系统。在世界语跟机器翻译结合的过程中, EChA是一个成功的尝试和良好的开端。我们热切希望得到专家学者, 世界语同志们的帮助和指导。

                                            EChA系统流程图

                                            ______________
                                            /   原文输入    
                                          /________________
                            _____________________________________________
                        1. 削尾, 查词典(实词词典, 虚词词典, 成语词典,    
                          词类词义区分表)                            
      (形态分析)           ______________________________________________
      ------------------- ______________________________________________
                        2. 连词标点, 切分, 其他虚词                    
                        ______________________________________________
                        ______________________________________________
                        3. 中间语言CDC的求解                          
                          ______________________________________________
      ------------------- ______________________________________________
                          4. 多义词区分; 英语形态生成及汉语形态修辞;      
                            英语不规则词词表                          
                        ______________________________________________
                        ______________________________________________
                        5. 英语调序                                  
                        _______________________________________________
                            ______________________________________________
                          6. 汉语调序及其他修辞                          
                          _______________________________________________
                                         __________________
                                            译文输出      
                                        __________________

源语文句输入以后, 作第一遍扫描。首先判定加工词长度是否大于三。若大于三, 转子程序削尾后查实词词干词典, 否则查虚词词典。因为世界语虚词(无词尾变化)大多短小, 以三为界限最合理, 可以大大减少虚查次数。词典查不着的作生词处理, 削尾信息保留。查完词典及词表以后, 把削尾信息和词典信息移到计算机内存中所开辟的句子加工场。

句法分析确定源语文句的层次结构和句法关系。分析结果以一种高度形式化的层次递归成分体系CDC来体现。CDC是独立于目标语的机器翻译中间语言, 这种独立性对于一对多机译系统是必要的。CDC由形态,成分, 节点, 分布, 链号和层次几部分信息构成。它不但揭示了源语文句的正确的句法树, 而且还包含了其它的有用的信息。事实上, 它为建立多目标语的生成系统奠定了良好的基础。

句法分析第一线处理虚词, 中心任务是加工连词和标点, 正确切分语段。原则上为每一个虚词编制一套分析规则。世界语虚词数量很有限, 但用法较多, 具有民族语功能词的类似的复杂性, 是语言个性的集中表现, 所以分别加工比较适宜, 这也有利于规则跟规则分开。该线加工任务很重, 特别是连词KAJKE, 分析规则十分复杂。在很大程度上, 虚词分析对了, 句法关系也就清楚了。因此, 集中力量编制一套完备的针对具体虚词的分析系统, 对于世界语类型的机器翻译至关重要。该线正确处理了虚词个性现象, 便可以保证下一线分析的充分抽象性和概括性, 这样做对于象世界语这样的科学而规则的语言显得特别有利。句法分析第二线运用自顶而下的方法, 从句子的谓语轴心(第一层)着手, 一层一层往下递归加工, 直到最末层(终结节点层)。加工过程就是不断递归调用各子程序的过程。其中以动词子程序为核心, 它充分反映了世界语语法的基本内容及其高度规则性。分析完毕得出一条对应于源语文句的中间语言CDC的链。

综合第一线做英语形态生成和汉语形态修辞。英语形态并不发达, 所以世英的形态转换规则也不复杂。汉语缺乏形态, 一般用适当的虚词(助词, 副词等)来代替。我们把多义词区分规则也放在这一线, 这是因为多义区分的条件至此已经具备。一般来说, 根据多义词及其联系词的CDC成分和语义特征就可以得出该词的正确义项。综合第二线和第三线分别做英语调序和汉语调序。调序信息由CDC结合目标语语法规律得出, 调序的方法是自底而上, 层层归约, 这样就不至于调乱。我们知道, 世界语语序极为灵活自由, 而汉语语序却很固定, 所以生成汉语的主要任务是调序。对于英语, 调序的任务较轻, 主要是保证文句主干 "主谓宾" 次序不乱。英语名词没有主宾格的区分, 所以关键是把前置宾语移到动词之后。"世界语是印欧语系的一个合理化的公分母", 与英语相似处毕竟很多, 比如同一句法层次的定语或状语的内部调序, 在译汉语时是一个难题, 而在印欧系诸语言中则不是大问题。另外修辞加工的过程也可以免了。(世英转换中的成语和多义现象较之世汉转换也少得多。)总之, 英语生成比汉语生成容易许多。

EChA虽然是个不大的系统, 但是内容比较丰富。它既有形态分析, 又有形态生成, 也有调序和修辞, 还有自己的一套成分体系。我们在总体设计时, 已经考虑到增加新的不同类型的目标语扩充该系统的需要。可以预计, 如果增加两线俄语和法语的生成程序(主要是形态生成), 分析部分稍作改动(主要是充实与综合还没有完全独立开来的虚词分析规则), 就可以实现崐世到汉///俄的自动翻译。总之, 实用机译系统所能遇到的问题, EChA几乎都已涉及, 而且主体六线程序各个有自己的特色, 是个有相当代表性的一对多全自动机译模型。

【相关】

硕士论文: 世界语到汉语和英语的自动翻译试验
立委硕士论文:1. EChA概况
立委硕士论文:2. 世界语: 语言学特点及其研究价值
立委硕士论文:3. 层次递归成分体系
立委硕士论文:4. EChA机器词典及词表
立委硕士论文:5. 世界语形态分析
立委硕士论文:6/7 世界语句法分析
立委硕士论文:8. 英语形态生成
立委硕士论文:9. 目标语调序
立委硕士论文:10. EChA 试验结果的分析
立委硕士论文【致谢】【参考书目】
立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

《立委随笔:一小时学会世界语语法》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

立委硕士论文全文(世界语版)

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

【关于机器翻译】

【置顶:立委NLP博文一览】

《朝华午拾》总目录






http://blog.sciencenet.cn/blog-362400-296185.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:硕士论文: 世界语到汉语和英语的自动翻译试验

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-20 16:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部