《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

立委硕士论文:4. EChA机器词典及词表

已有 5499 次阅读 2010-2-20 04:27 |个人分类:世运资料|系统分类:论文交流| 机器翻译, 世界语

      世界语到汉语和英语的自动翻译试验
          --EChA机器翻译系统概述

19页————————————————————————————————————————————————————

4. EChA机器词典及词表

EChA所有词典词表都是随机数据文件, 并且各配有一套修改和扩充的外围维护程序, 这给系统的改进提供了方便。下面分别介绍各词典词表的定义。

1) 实词词干词典

  格式:
          _______________________________________________________________________________
          丨词干 逻辑类 及物性 带不定式 支配词 支配词汉义码 汉义 汉义特征 英义
          ________________________________________________________________
          ________________________________________________            
          丨英义特征 语义特征 词类词义区分表记录号 备用项
          __________________________________________

<逻辑类>::= { N, V, A, F, P, C, K, T, R, S, W, E, D, X }

                N=名词 , V=动词 , A=形容词 , F=副词 , P=介词 , C=连词或标点 , K=K类相关词 ,
                T=T类相关词 , R=其他相关词 , S=数词 , W=人称代词 , E=系词 , D=冠词 , X=万能词

[说明] 逻辑类用来表明词的静态词性。世界语实词的语法词性是动态随机的, 只能由削尾决定。但每个词一般具
      有一个基本词性, 这是单词的深层的逻辑特征。语法词性不过是由它通过加词尾派生的表层的句法特征。

<汉义特征>::= { "...以后", "...", "使...", "...", "...", "...", "...", "...", "...",
                  多义词特征, 构成成语特征, ... }
[说明] 汉义特征揭示了该词汉义的结构特性, 也给出了汉语生成的修辞信息。

<英义特征>::= { 不规则变化特征, 双写特征, 形式不变特征, ... }
[说明] 英义特征给出该词的英语形态生成方式信息。

<支配词汉义>::= { 零义, "", "", "", ... }
[说明] 支配词汉义标示该词所支配的词(通常是介词)的汉义。

<语义特征>::= { HM, LK, TM, FX, ... }

            HM=人类特征, LK=地点特征, TM=时间特征, FX=方向特征

2) 虚词词典

虚词词典除包含实词词典的各项信息外, 还揭示了部分CDC信息, 如词性, , , 关系, 分布, 节点等。分析之前就能在词典里给出某些动态信息, 这是由虚词特点决定的。例如: 介词永远处于非终结节点(节点"Y"), 原副词和万能词一般是不扩展的, 所以总处于终结节点(节点"J")上。万能词 ECH (EVEN) 永远位于其轴心词之前(分布"Q")。原副词 JAM (ALREADY)永远做状语(关系"F")。从属连词 KE (THAT) 总是引导名词性从句(词类"K", 节点"K"), 而且总位于其轴心词之后(分布"H")。冠词LA永远做定语(关系"D"), 位于轴心词前(分布"Q"), 处于终结节点上(节点"J")

3) 成语词典

机器翻译界所谓的成语, 比其通常的意义要宽泛得多。凡是常用的比较固定的词组都可收作成语。世界语中纯粹的不可分析的习惯表达法较少, 所以成语词典容量相对不大。成语词典的收词范围, 还在很大程度上决定于原语和译语的对比差异。亲属关系相近的表达方法类似, 可以少收或不收成语。在EChA, 就没有设立世英成语词典, 只有一部世汉成语词典。

  EChA成语例释:
                MALFERMA(JN) AUTO(JN) ----- 敞蓬汽车 ( CF: OPEN CAR(S) )
                SOMERA(JN) FERIO(JN) ----- 暑假 ( CF: SUMMER HOLIDAY(S) )
                LA ANGLA(N) LINGVO(N) ---- 英语 ( CF: THE ENGLISH LANGUAGE )
                INSTRUA(JN) LIBRO(JN) ---- 教科书 ( CF: TEACHING BOOK(S) )
                LA GRANDA(N) MURO(N) ---- 长城 ( CF: THE GREAT WALL )
                HOMA(N) SVARMO(N) ---- 人群 ( CF: MAN'S SWARM )
                FACILA(N) VENTO(N) ---- 顺风 (CF: EASY WIND )

4) 词类词义区分表

建立该词表对于世界语作为源语的机器翻译很必要, 可以大大减轻综合时多义区分的负担。凡是随着词性和逻辑类的不同, 目标语的义项也相应不同, 而这种改变并不遵循形态转换规律, 这样的单词就收入区分表。例如: MATEMATIK-A(JN) 必须收入, HOM-A(JN) 就不必收, 因为前者的英义是 MATHEMATICAL (不是 MATHEMATICS' ), 而后者只要按规律从源语形容格(形容词性), 生成目标语所有格的词尾 -'S 或助词 "" ( MAN-'S / "-" ) 就可以了。我们在实词词典中对要入区分表的词, 都给出了查表记录号(随机文件地址), 所以系统只要按地址取记录就行了。用BASIC编程时, 拿随机文件记录号作为单词内部代码, 是值得推荐的。词类词义区分表例释:

实词词典                     词类词义区分表

                      ATING-I: ACHIEVE / 达到       ATING-O: ACHIEVEMENT / 成就
                      EKZEMPL-O: EXAMPLE / 例子     EKZEMPL-E: FOR EXAMPLE / 例如
                      KOMENC-I: BEGIN / 开始         KOMENC-E: AT BEGINNING / 开始时
                      MEZUR-I: MEASURE / 测量       MEZUR-O: MEASUREMENT / 尺寸
                      OKAZ-I: HAPPEN / 发生         OKAZ-O: OCCASION / 场合
                      SCI-I: KNOW / 知道             SCI-O: KNOWLEDGE / 知识
                      TIP-O: TYPE / 型号             TIP-A: TYPICAL / 典型的

5) 英语不规则词表

这个词表跟一般英语词典附录中列的不规则表没什么两样, 不过为了简便, 我们把动词形式的不规则变化和名词复数的不规则变化放在一个表内。不规则词表是供英语形态生成查用的。
             
                                英语不规则词表

          原形             过去时                 过去分词                 名词复数

          BEAT             BEAT                 BEATEN
          BECOME           BECAME               BECOME
          ...             ...                   ...                   ...
          CHILD                                                           CHILDREN
        ...             ...                   ...                   ...

最后我们给出EChA句子加工场的格式:
        __________________________________________________________________________
        丨目标语序号丨实词词典各项丨CDC信息丨已加工特征丨虚词特征丨目标语调序信息丨目标语位移序号丨
        ______________________________________________________________

      [说明]

   

1.   目标语序号用来在综合阶段自底而上归约加工时给同号。

2.   目标语位移序号用来在用搬家法作虚拟调序时代表整个词条。用序号代替整个词条位移的虚拟调序, 比纯粹用搬家法效率高, 大约跟拉链法相仿。鉴于BASIC不能处理组合项变量, 如果采用搬家法调序, 只能一项一项位移, 这种虚拟调序的技术更显出优越性。但须注意, 跟位移序号一起移动的, 还必须包括该词的自然顺序号, 用它标示原词条位置, 这样查问时才无后顾之忧。

【相关】

硕士论文: 世界语到汉语和英语的自动翻译试验
立委硕士论文:1. EChA概况
立委硕士论文:2. 世界语: 语言学特点及其研究价值
立委硕士论文:3. 层次递归成分体系
立委硕士论文:4. EChA机器词典及词表
立委硕士论文:5. 世界语形态分析
立委硕士论文:6/7 世界语句法分析
立委硕士论文:8. 英语形态生成
立委硕士论文:9. 目标语调序
立委硕士论文:10. EChA 试验结果的分析
立委硕士论文【致谢】【参考书目】
立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

《立委随笔:一小时学会世界语语法》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

立委硕士论文全文(世界语版)

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

【关于机器翻译】

【置顶:立委NLP博文一览】

《朝华午拾》总目录




https://blog.sciencenet.cn/blog-362400-296182.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:立委硕士论文:3. 层次递归成分体系
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 16:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部