《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

立委硕士论文:5. 世界语形态分析

已有 5341 次阅读 2010-2-20 04:26 |个人分类:世运资料|系统分类:论文交流| 机器翻译, 世界语

      世界语到汉语和英语的自动翻译试验
          --EChA机器翻译系统概述





23页——————————————————————————————————————————————


5. 世界语形态分析

源语文句分析大体可以分形态分析和句法分析两大类。前者研究的对象小于等于词, 而后者的对象大于等于词(句素)。分析的终极目的就是求解词的正确的CDC成分。本节先讨论形态分析问题。我们把构词分析的讨论也放在这一节。


世界语形态分析的主体是消尾算法的建立。世界语没有形态同形现象, 所以只要削尾正确, 形态分析也就完成。下面给出EChA的削尾算法。应该说, 该算法是比较完备和合理的, 完全能够满足世界语自动分析实用系统的要求。

                                          世界语削尾算法
                                                     

(1)   若该词最末字母为 "-O" "名词 / 普通格 / 单数" 的结论, 该词削尾后查实词词干词典, 转下一步(2), 否则步骤(12)

(2)   若查词典成功, 取词典信息到加工场, 该词加工完毕, 否则下一步(3)

(3)   若该词最末二字母为 "-AD" "AD" 的结论, 该词削尾后查实词词干词典, 转下一步(4), 否则步骤(5)

(4)   若查词典成功, 取词典信息到加工场, 该词加工完毕, 否则步骤(11)

(5)   若该词最末三字母为 "-ANT" "分词 / 进行式 / 主动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(6)

(6)   若该词最末三字母为 "-INT" "分词 / 完成式 / 主动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(7)

(7)   若该词最末三字母为 "-ONT" "分词 / 将来式 / 主动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(8)

(8)   若该词最末二字母为 "-AT" "分词 / 进行式 / 被动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(9)

(9)   若该词最末二字母为 "-IT" "分词 / 完成式 / 被动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(10)

(10)若该词最末二字母为 "-OT" "分词 / 将来式 / 被动式" 的结论, 该词削尾后查实词词干词典, 转步骤(4), 否则下一步(11)

(11)该词取 "生词" 的结论, 保留削尾结论, 在加工场的目标语语义项里复制该词, 该词加工完毕。

(12)若该词最末字母为 "-'" "名词 / 普通格 / 单数" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(13)

(13)若该词最末字母为 "-A" "形容词 / 普通格 / 单数" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(14)

(14)若该词最末字母为 "-E" "副词 / 普通格" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(15)

(15)若该词最末字母为 "-J" "普通格 / 复数" 的结论, 该词削尾后转下一步(16), 否则步骤(18)

(16)若该词最末字母为 "-O" "名词" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(17)

(17)若该词最末字母为 "-A" "形容词" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则步骤(11)

(18)若该词最末字母为 "-N" "目的格" 的结论, 该词削尾后转下一步(19), 否则步骤(23)

(19)若该词最末字母为 "-J" "复数" 的结论, 该词削尾后转步骤(16), 否则下一步(20)

(20)若该词最末字母为 "-O" "名词 / 单数" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(21)

(21)若该词最末字母为 "-A" "形容词 / 单数" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(22)

(22)若该词最末字母为 "-E" "副词" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则步骤(11)

(23)若该词最末字母为 "-S" 转下一步(24), 否则转步骤(30)

(24)若该词最末二字母为 "-AS" "现在时" 的结论, 该词削尾后转步骤(28), 否则下一步(25)

(25)若该词最末二字母为 "-IS" "过去时" 的结论, 该词削尾后转步骤(28), 否则下一步(26)

(26)若该词最末二字母为 "-OS" "将来时" 的结论, 该词削尾后转步骤(28), 否则下一步(27)

(27)若该词最末二字母为 "-US" "虚拟式" 的结论, 该词削尾后转步骤(29), 否则步骤(32)

(28) "陈述式" 的结论, 转下一步(29)

(29) "动词 / 谓语 / 主动语态" 的结论, 查实词词干词典, 转步骤(2)

(30)若该词最末字母为 "-I" "动词 / 不定式" 的结论, 该词削尾后查实词词干词典, 转步骤(2), 否则下一步(31)

(31)若该词最末字母为 "-U" "命令式" 的结论, 该词削尾后转步骤(29), 否则下一步(32)

(32)查虚词词典(因该词无尾可削)。若成功取词典信息到加工场, 该词加工完毕, 否则取 "名词 / 专有名词" 的结论, 返回步骤(11)


[] 世界语基本法规第16条说: "名词和冠词末尾的元音字母可以省略, 用省略号 ' 来代替"。这种现象多出现在诗歌里, MOND'(103)。我们在步骤

  (12)对它作了处理(冠词是长度小于 3 的虚词, 直接查虚词词典, 不入削尾一线, 故不予考虑)

我们谈谈构词分析问题, 这包括两个方面: 1. 关于建立削缀算法(派生词处理)的讨论; 2. 关于拆离合成词的讨论。在现行的EChA系统中, 这两个问题都回避了。我们建立的词典, 是以词干(包括合成词词干)作存贮单位的, 加工词只要削去语法词尾, 就可以查到。但是, 应该指出, 这样做, 对于世界语这种构词特别灵活的语言并不合理。以词干存词, 在做小型实验时还可应付, 如果是实用系统, 就会出现存不胜存的情况。我们主张实词词典既存词根也存词干, 同时建立一个完全的世界语削缀算法和合成词拆离算法, 以便对付生词。(世界语除国际性的专业词汇外, 基本词根很有限。所谓生词, 一般都是由基本词根及几十个词缀随机组合的派生词或合成词。因此, 只要切分正确, 生词便不 “生”。)


世界语后缀可以叠加(理论上无限), 但前缀通常只能有一个。这样词典一线的加工路径应该是:

削缀与削尾不同, 并非有缀必削。对于削尾, 机器是先削后查, 而对于削缀, 则是先查词典, 查不着的生词再去削缀。这样处理便于我们根据设计要求(实验型还是实用型, 对于翻译速度, 质量, 成本的要求等等)和机器条件(内存容量, 运算速度等)决定实词词典收词干的标准。


现在, 由于计算机技术的发展, 机器功能(存贮, 速度)越来越强, 而成本急遽下降。因此机器翻译界如今有人提倡存贮单位宜大不宜小(如尽量多收成语的主张[7] ), 以海量存贮和快速查找来减轻分析的负担。这是很有见地的认识。单位越大, 确定性就越强, 对分析综合(机器智能)的要求就越低, 研制的难度相对减轻, 而译文的质量会大大提高。机器翻译是实用性很强的学科, 这种主张就显得更有价值。当然, 单位也不是越大越好, 因为单位每大一级(从词根到词干, 从词干到词, 从词到词组, 从词组到语句), 其组合的可能性呈指数增长.[8] 如果推向极端, 以句子为存贮单位, 则完全不需要分析和综合,只要对号入座即可输出译文。这时候, 人工智能的程度等于零, 翻译质量却可以达到最佳(如果以人工水平为最佳)。可惜, 硬件技术无论怎样发达, 其存贮容量和查找速度也总有限, 不可能对付无穷的句子。(但为了某种特殊的需要在有限的范围内, 这种办法是可行的, 如旅游翻译机。这到底还算不算机器翻译? 应该算的, 只是它不是人工智能意义下的机器翻译。)机器翻译的另一极是以词素(词根, 词缀, 词尾)为分析单位, 它所需要的词典容量(只存词根)最小, 人工智能的水平最高, 不但有句法分析和综合, 还要有构词分析和综合。但费了好大劲儿, 质量却最不能保证, 因为一个句子掰得太碎(原文分析),捏拢来总难免有些难看的痕迹(译文综合)。所以, 现行的机译系统, 一般都是在这两极中根据具体条件和设计者的观点取某个中值。我们认为, 一个优秀的实用系统应该有两手, 既能分析得很透彻, 又能对常用词组(成语)囫囵儿处理。该细的地方细得下去, 该粗的地方粗得起来。一般来说, 对于常用的, 固定的, 个性的可枚举现象粗一点比较有利, 而对于规律性的随机现象, 则适宜较细致的分析。所以, 对于以世界语为分析对象的实用机译系统, 我们既主张尽可能多收成语和带缀词干, 也充分肯定建立一个完备的削缀算法的必要性。


那么, 世界语实词词典收多少派生词词干比较合理呢? 对于独立型机器翻译:


(1)   如果是小型实验系统, 目的是在有限的材料内试验系统的句法分析和综合能力, 那就词干全收; 否则:

(2)   凡是常用的派生词词干一律收进词典, 而不再入削缀子程序----常用性(出现频率高)是根本标准;

(3)   有助于区别同形多义的派生词词干, 应该收;

(4)   可收可不收的, 主张收;

(5)   在刚开始设计实用系统的机器词典时, 由于世界语词缀的极端灵活性和随机性, 很难一次收入许多带缀的词干, 这样, 削缀算法就显得更重要。削下缀来, 虽然表义不是很确切, 甚至有时在目标语综合时, 还需要辅以说明性注释(见后面例释), 但总比直接打出生词来(信息量为零)强出百倍。随着系统的不断扩充和完善, 收的词干自然会越来越多。

如果是具有特定的目标语的相关型机器翻译:

(1)   收多少派生词词干应该考虑目标语的构词特点及词汇状况;

(2)   在目标语中作为一个完整概念, 而不是词根和词缀意义简单相加所能反映的词干, 应该收入词典。如: DOM-EGO 楼房, 大厦(而不是一般的“大-房子”);

(3)   如果以汉语为目标语, 削缀更多一些, 因为世汉构词法很相似, 汉族人的心理本能地习惯于理解词素与词素的组合。(这种民族偏爱心理在引进外来词时表现的很明显, "德律风" "电话"取代, "莱塞" "激光" 取代等。)可以举出很多世汉构词神似的例子。而且也有许多世界语派生词如 DOM-ACHO 虽然整个儿译作 "陋室" 更雅一些, 但也不妨用统一的削缀合成法组成新词"-房子", 与原义相去也不远。特别是有些缀与汉字(词素)有很多一致性, VIC-/--IN-/--EBL-/- 等等, 就更有理由作削缀处理。

                            世汉构词对比例释(1): 派生词
                                               
BO- - : BO-PATRO -父亲 (岳父或公公) , BO-FILO -儿子 (女婿) , BO-FRATO -兄弟 (内弟) ;

(1)   GE- (男女)- : GE-AMIKOJ (男女)-朋友们 , GE-KAMARADOJ (男女)-同志们 , GE-AKTOROJ (男女)-演员们 ;

(2)   EKS- - : EKS-OFICISTO -职员 , EKS-MINISTRO -部长 , EKS-INSTRUISTO -教师 ;

(3)   MAL- [反义] : MAL-BONA [反义] () , MAL-AMIKO [反义]朋友 (敌人) , MAL-SAGHE [反义]聪明 (愚苯) ;
      [说明] MAL-是世界语中用得最广, 随机性最强的前缀之一, 具有极强的造词能力, 可惜, 中文没有对应的词素。

如果系统遇到某个MAL-型生词, 削下前缀后给出[反义]这样的说明性标识, 也还可以使人理解。

(4)   VIC- - : VIC-PREZIDANTO -主席 , VIC-ESTRO -队长 , VIC-CHEFMINISTRO -总理 ;

(5)   FI- - : FI-INSEKTO - , FI-KOMERCISTO -商人 (奸商) , FI-KUTIMO -习惯 (恶习) ;

(6)   SEN-     1. 若词根逻辑类为名词则 "-" : SEN-GUSTA -味的 , SEN-SENCA -意义的 ;
            2. 若词根逻辑类为动词则 "-" : SEN-MORTA -死的 (不朽的) , SEN-ATENTA -注意的 ;
NE- 若词根逻辑类为名词则 "-" 否则 "-" : NE-ESPERANTISTO -世界语者 , NE-BONA -好的 ;

(7)   介词性前缀: 1. SUR- -: SUR-TABLE 桌子- ;     2. APUD- -: APUD-VOJA -旁的 ;
        3. EN- -: EN-LANDE - ;       4. LAU- -: LAU-VICE -次序 ;     5. DE- -: DE-NOVE - ;
-ACH- - : DOM-ACHO -房子 (陋室) , KNAB-ACHO -男孩 (捣蛋鬼) , VETER-ACHO 鬼天气 ;

(8)   -AN- -成员 : KLUB-ANO 俱乐部-成员 , KURS-ANO 讲习班-成员 , KOMUNUM-ANO 公社-成员 ;

(9)   -UL- - : BON-ULO - , KAR-ULO 亲爱- , JUN-ULO 年青- , LONG-KRUR-ULO /- ;

(10)-IN- - : KAMARAD-INO -同志 , INSTRUIST-INO -教师 , OFICIST-INO -职员 , AKTOR-INO , -演员 ;

(11)-EBL- - : VID-EBLA -见的 , MANGH-EBLA -吃的 , UZ-EBLA -用的 , NE-ATING-EBLA --达到的 ;

(12)-EC- - : CERT-ECO 确实- , NECES-ECO 必要- , KLAR-ECO 清楚- , LIBER-ECO 自由- ;

(13)-EM- - : LABOR-EMA -工作的 (勤劳的) , PAROL-EMA -说话的 , MENSOG-EMA -撒谎的 ;

(14)-IND- 值得- : LERN-INDA 值得-学习的 , LAUD-INDE 值得-称赞 , LEG-INDA 值得-读的 , AM-INDA 值得-爱的 ;

(15)               -ON-     1. -ONO "-分之一": DU-ONO -分之一 , TRI-ONO -分之一 , KVAR-ONO -分之一 ;
              2. X+Y-ONOJ "Y-分之X": TRI DEK-ONOJ -分之三 , KVIN OK-ONOJ -分之五。

合成词 ("词根+词根") 也是一样。比较固定的, 应该整个儿存入词典, 随机组合的, 应该拆开。但这儿有一个困难, 世界语语法为了方便使用者, 即便对完全随机组合的合成词, 也不作加连字符的规定。那么怎么拆呢? 词根的数量与词缀不能比, 长度也变化很大, 一个字母一个字母地削查比较, 显然不是办法。如果坚持不要译前编辑, 还找不到一个合理的解决办法。目前可以考虑先对中间有连字符的合成词作拆词加工。我们提倡除比较固定常用的合成词外, 世界语者在运用随机合成词时,为读者的省力和机器的识辨计加上连字符。鉴于世界语构词法与汉语构词法惊人的一致(组合方式及其高度随机性都很类似),对于世汉机器翻译这一倡议更加必要。
                             

                            世汉构词对比例释(2): 合成词

  (1) AKVO-FONTO / ; (2) VARM-ENERGIO / ; (3) ARBO-BRANCHO / ; (4) VAPOR-SHIPO / ;
  (5) SURD-MUT-ULO /- ; (6) BLANK-HARA /发的 ; (7) NUD-PIEDA /脚的 ; (8) FISH-KAPTI /    
__________________________________________________________________________________________
  附注:   [7] 参见:
            刘涌泉 <<中国的机器翻译>> ( <<情报科学>> 1980, 3 )
            王广义 <<机器翻译中的固定词组和固定结构问题>> ( <<语言和计算机>> (1), 1982 )

        [8] 参看: 叶蜚声, 徐通锵 <<语言学纲要>> 第二章第二节 " 1. 语言的层级体系", PP.34-36 ( 北京大学出版社, 1981 )




【相关】

硕士论文: 世界语到汉语和英语的自动翻译试验
立委硕士论文:1. EChA概况
立委硕士论文:2. 世界语: 语言学特点及其研究价值
立委硕士论文:3. 层次递归成分体系
立委硕士论文:4. EChA机器词典及词表
立委硕士论文:5. 世界语形态分析
立委硕士论文:6/7 世界语句法分析
立委硕士论文:8. 英语形态生成
立委硕士论文:9. 目标语调序
立委硕士论文:10. EChA 试验结果的分析
立委硕士论文【致谢】【参考书目】
立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

《立委随笔:一小时学会世界语语法》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

立委硕士论文全文(世界语版)

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

【关于机器翻译】

【置顶:立委NLP博文一览】

《朝华午拾》总目录






https://blog.sciencenet.cn/blog-362400-296181.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:立委硕士论文:4. EChA机器词典及词表
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 00:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部