博文

中文AMR语料库的构建工作简介

已有 11254 次阅读 2017-8-4 22:48 |个人分类:Computational Linguistics|系统分类:论文交流

按：最近有不少朋友跟我问AMR的问题，正好今年有一篇中文论文，节选出来放在这里，便于查看。另外我们的网站有更多材料可以参考：http://www.cs.brandeis.edu/~clp/camr/camr.html。内容节选自李斌，闻媛，卜丽君，曲维光，薛念文. 英汉《小王子》AMR语义图结构的对比分析, 中文信息学报，2017(1).

AMR（AbstractMeaning Representation，抽象语义表示）是一种新型的句子语义表示方式，由美国宾夕法尼亚大学的语言数据联盟（LDC）、南加州大学、科罗拉多大学等科研机构的多位学者共同提出^[1]。与传统的基于树的句法语义表示方法不同，AMR使用单根有向无环图[1]来表示一个句子的语义。这种表示方法相比树结构拥有较大的优势：首先，单根结构保持了句子的树形主干；其次，有向无环图使用图结构可以较好地描写一个名词由多个谓词支配所形成的论元共享（argument sharing）等现象；第三，AMR还允许补充出句中隐含或省略的成分，以还原出较为完整的句子语义。这三大优点，使得AMR一经公布，就引起了国际上的重视，涌现了从跨语言翻译价值角度进行的讨论^[2]、自动分析技术^[3]、转化应用^[4]等多方面的研究论文。AMR配套发布了包括《小王子》在内的2万多句英文语料库，2016年的SemEval语义评测也举办了英文AMR的自动分析竞赛项目[2]。英文《小王子》语料中带有图结构的句子比例高达42%[3]，带有补充概念节点的句子比例也在10%以上，说明了AMR使用图结构和补充概念节点的有效性和合理性，也使得学术界对于句子的结构有了新的认识。

另一方面，汉语的句法语义自动分析研究，也开始从句法树走向了语义图。Ding等^[5]加工了汉语语义依存图库，其中带有图结构的句子仅10%左右。虽然句子的标注体系不同，也没有增添概念节点的机制，但相比英文《小王子》带有图结构的句子比例42%，仍有较大差异。这促使我们试图分析英文的图结构到底由哪些因素造成，汉语中图结构的情况又如何。为了使中英文数据能够在可比较的语料库上进行分析，我们根据英文AMR的标注规范^[6]，设计了中文AMR标注规范，标注了和英文《小王子》句对齐的中文《小王子》1562句。由两位语言学研究生分别独立标注，标注一致性的Smatch值为0.83。统计结果显示，中文《小王子》含有图的句子比例也高达36%左右，且与英语具有很高的一致性。而英汉双语的补充的概念节点的数量却存在较大差异，体现出语言结构的差异。

[1] Banarescu等^[6]指出，在技术操作上仍有约0.3%的句子的AMR结构存在环。

[2] http://alt.qcri.org/semeval2016/task8/。

[3]虽然AMR采用单根有向图表示句子语义，但很多句子没有形成图结构，仍为树结构。英文《小王子》语料中，剩余58%的句子为单根树结构。

2 AMR简介及相关研究

2.1 AMR简介

AMR（Abstract MeaningRepresentation，抽象语义表示）是句子语义的一种表示方法，将一个句子的语义抽象为一个单根有向无环图。在这个语义图上，句子中的实词抽象为概念节点，实词之间的关系抽象为带有语义关系标签的有向弧，同时忽略虚词和形态变化体现的较虚的语义（如the、单复数、时、体等等）。图1分别给出了“The boywants to go to school”及中文翻译“男孩想去学校”的AMR表示。

男孩想去学校

x/想-01

:arg0 x1/男孩

:arg1 x2/去-01

:arg0 x1

:arg1 x3/学校

The boy wants to go to school

w/want-01

:arg0 b/boy

:arg1 g/go-01

:arg0 b

:arg1 s/school

图1 The boywants to go to school的AMR英汉表示方法

图1中，每个概念节点都有一个字母开头的编号。“想（want）”作为句子唯一的根结点，编号分别是x和w，“男孩（boy）”作为“想（want）”的arg0（施事），“去（go）”作为“想（want）”的arg1（受事）。这里与传统的句法分析或语义角色标注有一些差异，英文做了词形还原，省略了冠词the、形态标记（动词的数、介词to），而汉语则没有词形方面的变化。与传统表示方法的主要不同在于对论元共享现象的处理，例如“想（want）”和“去（go）”的arg0都是“男孩（boy）”。传统的句法分析方法受限于树结构，往往舍弃“男孩-去”这个关系；而语义角色标注会保留两个关系，形成图结构。AMR为了保留论元共享的信息，又避免图结构的凌乱显示，允许重复使用词语的编号b和x1，使得AMR在保持树状层次结构的同时，保有图结构的信息。

为了明确谓词及其论元之间的语义关系，AMR要求标注谓词的具体义项。因为一个谓词会有多个义项，而不同义项下的论元框架会存在差异。在图1中，动词“想（want）”被标注了“-01”的信息，表示此处的“想（want）”使用的是其第一个义项的论元框架。

AMR暂时忽略语言中语义较虚的成分，如英文中“名词的数、动词的数、有定/无定、时、体”等由形态变化体现的语义。而它最令人称道之处，在于它允许根据整体语义增删概念节点，能够弥补传统句法表示的严重缺陷。例如，Theinjured was taken home.（受伤的被送回家了）。在短语结构文法和依存文法的框架下，Theinjured（受伤的）只能作为一个整体来处理，其语义难以得到揭示。

The injured was taken home

t/take-01

:arg1 p/person

:arg1-of i/injure-01

:arg2 h/home

受伤的被送回家了

x/送-01

:arg1 p/person

:arg1-of x1/伤-01

:arg2 x2/家

图2 The injured was taken home的AMR英汉表示方法

图2给出了AMR的处理方式。AMR允许补充句子中省略的成分，将“person（人）”补充出来，作为“take（送）”的arg1（受事），也作为“injure（伤）”的arg1（受事），更完整地表示了句子的语义。

AMR的补充概念节点和删除语义较虚的词语的方式，对汉语来说也很重要。一方面，汉语的“的”字结构（如“受伤的”），在传统的句法分析中也被当作一个整体来对待，难以体现出其真正的语义。而在AMR的补充概念的方式下，person（人）的补充使得意义得到了较为完整的表达，“受”的被动义也由“person:arg1-of 伤”描写出来，体现出AMR对于中文语义表示的价值。

另一方面，AMR也允许删除一些在意义上冗余的实词，使得句子的基本意义更加明确。比如，“他回答说”可以省略为“他回答”。此外，AMR还规定了一部分近义词可以使用最常见或歧义较少的单词进行替换，如在句中表示“好像”的意思的“like”替换为“resemble-01”。

AMR的抽象语义表示方法给句子语义以更加清晰的表达，受到学界的密切关注，但也褒贬不一^[2]。赞扬者认为这种表示方法整体上简洁有效，弥补了句法树在表示语义上的缺陷，接近真正意义上的中间语言（interlingua）；批评者则认为忽略形态变化所表达的意义是难以接受的。不过这一缺点对于汉语来说并不那么重要，因为汉语本来就没有形态变化，甚至被一些语言学家称作“语义型语言”^[7]。从上面的例子我们也可以看出，由于没有形态变化，汉语表示为AMR以后，损失的信息远比英文少。换言之，相比英文、德文等具有形态变化的印欧语言，AMR更适于表示汉语的句法语义。除去形态变化，汉语在句法分析时遇到的常见难题，如造成论元共享的连动句、兼语句等可以通过图结构得到很好的解决；“的”字结构等省略句子成分的结构也可以通过补充概念来解决。

AMR对于句子语义较为简洁而完整的表示、可计算评测的特点，使其至少具有三点潜在价值：（1）提升智能问答、文本摘要、事件分析等应用技术；（2）作为机器翻译的中间语言，提升机器翻译效果；（3）为句子级别之上的篇章语义表示奠定研究基础。因此，提高AMR的自动分析效果，增加更多语种的AMR语料就成为目前该领域最为迫切的研究内容。而中文AMR语料的构建一方面可以满足中文句法语义分析的应用需求，另一方面对于汉语的句法语义研究也有重要的语言学价值。

2.2 句子的图结构研究

传统的句法分析以树作为句子的基本结构^[8][9]。而随着框架语义学（Frame Semantics）的兴起^[10][11]，语义角色的标注（Semantic Role Labelling）工作也逐步展开^[12]。当一个句子中多个谓词共享同一个名词性成分时，多个谓词及其语义角色就会形成图结构。根据2009年依存和语义角色标注评测CoNLL2009 Shared Task语料，英语和汉语由于语义角色的论元共享现象，出现了较多的图结构^[13]。2014和2015年的SemEval国际评测则直接引入了语义依存图（Semantic Dependency Graph），在DM、PAS、PCEDT三个英文语料上由重入的回边（reentrance）造成的图结构的句子分别占到了27.35%、29.40%和9.27%^[14]。英文《小王子》AMR语料库上具有图结构的句子比例更高达42%。

英语句子的表示方法不仅使用了图结构，而且图结构的比例也确实较高。但是，汉语句子图结构的情况依然不够清楚。CoNLL2009语义角色标注数据^[13]只标注了谓词及其论元的语义关系，所以并不能忠实地反映出汉语完整句子的图结构情况。借鉴Oepen等^[14]的体系，Ding等^[5]加工了中文语义依存图库，其中带有图结构的句子仅10%左右，与英文语义依存图和英文AMR的差异较大。Xue等^[2]从机器翻译的中间语言角度，对英语、汉语和捷克语各100句的三语平行语料库进行了AMR的对比分析。其中，汉语的语料也出现了图结构。不过，100句的语料在规模上比较小，没有专门从图结构的角度进行分析。

因此，基于英汉平行语料构建更大规模的AMR语义图库，可以更好地比较两种语言中图结构的对应情况、图结构存在的比例、图结构的共性和差异等，以进一步观察AMR的跨语言表示能力和AMR对于汉语的句法语义表示能力。

3中文《小王子》AMR的标注

《小王子》英文AMR库[1]提供了1562句的标注数据，并附带了句对齐的中文《小王子》生语料。在此基础上标注中文《小王子》的AMR，便可得到英汉句对齐的双语AMR语料库。我们首先根据中文宾州树库（CTB）^[15]的分词规范，对中文《小王子》语料进行了自动分词和人工校对。其次，参照英文AMR标注规范^[6]，制定了中文AMR标注规范。然后，标注了中文《小王子》的AMR语料库^[16][2]。

制定中文AMR的标注规范，是一件难度较大的工作。现有的AMR规范毕竟是根据英语的语言现象制定出来的，对于汉语中特有的量词（本、台）、重叠式（认认真真）、离合词（帮忙-帮了一个忙）、动补结构（跑得快、吃不了）等现象，还缺少具体的规定和处理方法。我们参考AMR的基本原则，经过大量的试标与讨论，制定出较为详细的标注规范。限于篇幅，现简述如下。

（1）语义关系参照AMR的标准，分为核心语义关系与非核心语义关系。核心语义关系与英文AMR相同，沿用Propbank^[12]和ChinesePropbank^[15]的标注体系，共有5个：ARG0（原型施事）、ARG1（原型受事）、ARG2（间接宾语、工具等）、ARG3（出发点、受益者等）、ARG4（终点）。非核心语义关系，包括accompanier（伴随）、age（年龄）、beneficiary（受益者）等共计43个。

此外，还有一些比较特殊的关系标签，如and（和）、or（或）等概念的分项关系op1、op2等，用于multi-sentence（句群）的分项关系snt1、snt2等。

（2）按照AMR省略较虚的语义成分的原则，汉语特有的量词“本、张、台”等应该被省略，重叠式“认认真真”应该被还原为“认真”。

（3）汉语离合式采取“合”的方式，如“帮了一个忙”的谓词合并为“帮忙”。

（4）对于汉语中较为复杂的动补结构，根据句子中的具体语义进行标注。动补结构通常分为多种类型，如表示程度的“跑得快”、表示可能的“吃不了”、表示体的“做完作业”、表示结果的“看清楚、跑丢”等，均在规范中予以规定。

（5）对于汉语“的”字结构为代表的需要补充概念节点的情况，也分门别类地予以规定。

谓词所采用的语义角色框架则使用中文谓词库（CPB）的谓词框架词典^[17]。该词典是从CPB标注语料中抽取出来的，含有每个谓词在不同义项下的语义角色框架，共收录了24510个中文谓词（包括动词、形容词等）的26650个义项的不同语义角色框架。这部词典较好地覆盖了《小王子》的语料。少量没有覆盖到的谓词，其语义角色则根据标注规范从AMR规定的语义关系中选取。

中文《小王子》的AMR数据，由两位语言学研究生分别独立标注（语料A、B），标注一致性的Smatch值^[18]为0.83 ，与英文小王子的标注一致性达到了同等质量^[1]。

[1]语料下载地址http://amr.isi.edu/。

[2]语料下载地址http://www.cs.brandeis.edu/~clp/camr/camr.html。

4 英汉对比统计和分析

下面对本文使用的两个标注语料进行含有图结构的基本情况进行统计对比，并进行相应的统计检验，观察《小王子》英语语料和《小王子》汉语语料的差异性和相关性。具体来说，统计英汉对齐的句子中是否含有图结构以及含有图结构的个数，检验汉语和英语中图结构存在情况的差异性和一致性，并对产生差异的原因进行分析。

4.1 基本统计数据

对于英汉《小王子》全部1562句语料，汉语的两份人工标注结果（A、B）和英语人工标注的结果呈现出一定的共性和差异。表1给出了三份语料的图结构的统计数据。英语语料中，总共出现了1293条回边，造成了663个图结构的句子。而汉语的语料A和B仅分别出现了1037和1040条回边，分别造成548和576个句子出现图结构。

表1 《小王子》英汉AMR语料库的图结构统计

统计项	含图结构句数/回边条数	总句数	含图结构比例
《小王子》英语语料	663/1293	1562	42.45%
《小王子》汉语语料A	548/1037	1562	35.08%
《小王子》汉语语料B	576/1040	1562	36.88%

表1的数据体现出：（1）英汉双语出现图结构的句子都较多。两种语言都有约40%的句子出现了图结构。（2）英语的图结构比汉语略多一些。英语含有图结构的句子比例为42.45%，汉语的比例则略低，分别为35.08%和36.88%[1]。从形成图结构的回边的数量看，英语也是略高于汉语。（3）英汉双语出现图结构的一致性较高。英语句子出现图结构，则有着对译关系的汉语句子也倾向于出现图结构。Pearson检验显示，汉语A和B两个语料与英文语料是否含有图结构的相关系数分别为0.555和0.565；而单个句字中含有图结构的数量的相关系数为0.695和0.705。这些结果均在0.01的水平上显著。

这三点统计结果，已经可以回答本文的基本问题，即汉语和英语的图结构比例到底相差多少。在双语平行语料上，能够清楚地看出具有图结构的句子数量较大，AMR的图结构的表示方法具有合理性。但是，我们依然想弄清楚，形成图结构的回边的比例，以及英语图结构的句子多于汉语的原因。

[1]人工对比后发现，语料B的图结构数量略多，且A、B之间的差异对后文的统计影响较小，所以后文统计仅使用汉语语料B的数据。

此处略去诸多图表

从这些数据可以看出：（1）概念添加对于英语来说作用更大。英语中由词缀或形态变化构成的名词，往往被AMR进行内部分析。例如，带有-ing的drawing（图画）分析为thing:arg1-of draw（thing是画的受事），带有-er的admirer（仰慕者）分析为person:arg0-of admire（person是仰慕的施事）等。这种描写方式的优劣也许存在争议，但是对于what/how等引导的从句来说，显得不可或缺。例如，what you like，处理为thing :arg1-oflike 和like :arg0 you. 对于“some of it”之类的短语，补充为“some+ thing of it”也显得更为完整。（2）汉语中出现的数量略少，但对于刻画“的”字结构、“所”字结构、数量结构非常有效。如前文所述，AMR的概念添加方式对于“的”字结构有着良好的表示能力，能够补充出转指的成分thing、person等等。“所”字结构如“所思”、“所想”、“所言”等等，一般省略了动词的宾语，借助thing等概念可以很好地补充出来。数量结构，如承接上文省略的“我也买了一个”和连动结构中的“吃一个少一个”，都省略了名词性成分，也需要根据上下文来补充概念节点。（3）如果去掉词语内部结构的分析造成的概念添加，则英汉双语在补充原句中省略的词语方面数量较为接近。英语补充thing的总数86减去词语内部分析的55，则剩余31个较为纯粹的添加操作，与汉语添加thing的36个非常接近。英语补充person的总数97个，减去名词内部分析的65个，剩余32个较为纯粹的概念添加操作，与汉语的8个差距缩小了很多。一方面，AMR对词语内部的分析，刻画出英汉在构词和形态变化上的差异；另一方面，AMR通过概念添加的方式对两种语言句子中省略成分的补充较为有效。这也加深了我们对于两种语言的理解。一般来说，英语比较强调句子结构的完整性，而汉语句子中成分省略现象较多。但是通过AMR的标注数据来看，英汉都存在成分省略的现象。最为可贵的是，AMR的这种标注方法使得英汉句子在语义层面上得到了较为接近的表示，显示了其充当跨语言翻译的中间语言的潜力。

5结论及未来工作

本文通过标注汉语《小王子》AMR语料库，与英文《小王子》AMR语料库进行对比分析，得出的主要结论是：（1）汉语和英语中都含有较高比例的图结构，分别为36%和42%左右，说明图结构在汉语和英语中都是普遍存在的。（2）添加概念节点的方式能够更好地描写句子中省略的词语的语义。特别对于汉语的“的”字结构、“所”字结构和数量结构，具有良好的补充能力。

这两点结论体现出AMR确实具有良好的句子语义表征能力。一方面，具备图结构的句子比例较高说明图结构的引入确有必要。另一方面，AMR能够补充出句子中省略的成分，以完整地表征句子的语义，便于进行跨语言的比较。

当然，本文的工作还是初步的，需要在以下几个方面深入研究。首先，统计分析英汉《小王子》语料库中每一个句子在AMR表示上的异同，以进一步探究AMR的跨语言表示能力和英汉两种语言本身在词汇和句法上的差异。其次，标注更大规模的汉语AMR语料库，以研究汉语的句法语义问题，同时为汉语AMR自动分析技术提供训练和测试数据。然后，与英语、捷克语等其他语言的AMR语料库进行跨语言对比研究。最后，AMR是句子级别的语义表示方法，汉语中的成分省略特别是主语省略情况会导致我们处理时丢失一些语义上应该存在的图结构，还需要考虑篇章级别AMR的标注方法。

参考文献

[1] Banarescu, L., Bonial,C., Cai, S., et al. Abstract Meaning Representation for Sembanking[C]//Proceedingsof the 7th Linguistic Annotation Workshop, Sophia, Bulgaria, 2013.

[2] Xue, N., Bojar, O., Hajič,J., Palmer, M., et al. Not an Interlingua, but Close: Comparison of EnglishAMRs to Chinese and Czech[C]//Proceedings of the Ninth International Conferenceon Language Resources and Evalua-tion (LREC’14), Reykjavik, Iceland, May 26-31,2014: 1765-1772.

[3] Flanigan, J., Thomson,S., Carbonell J., et al. A Discriminative Graph-Based Parser for the AbstractMeaning Representation[C]//Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics, 2014:1426-1436.

[4] Liu F., Flanigan J.,Thomson S., et al. Toward Abstractive Summarization Using SemanticRepresentations Human Language Technologies[C]//The 2015 Annual Conference ofthe North American Chapter of the ACL, Denver, Colorado, May 31- June 5, 2015:1077-1086.

[5] Ding Y., Shao Y., Che W.,et al. Dependency Graph Based Chinese Semantic Parsing[C]//ChineseComputational Linguistics and Natural Language Processing Based on NaturallyAnnotated Big Data. Springer International Publishing, 2014:58-69.

[6] Banarescu, L., Bonial,C., Cai, S., et al. Abstract Meaning Repre-sentation (AMR) 1.2.2 Specification[DB/OL].[2015]. https://github. com/amrisi/amr-guidelines/blob/master/amr.md.

[7] 徐通锵.《语言论——语义型语言的结构原理和研究方法》[M].长春：东北师范大学出版社.1997.

[8] Chomsky N. SyntacticStructures [M]. The Hague/Paris: Mouton, 1957.

[9] Tesnière L. Eléments de syntaxestructurale[M]. Paris: Librairie C. Klincksieck, 1959.

[10] Fillmore C. J. FrameSemantics[J]. Encyclopedia of Language & Linguistics, 2006:613-620.

[11] Baker Collin F., CharlesJ. Fillmore, John B. Lowe. The Berkeley FrameNet Project[C]\Proceedings ofCOLING/ACL-98, Montreal, 1998:86-90.

[12] Palmer, M. Daniel G., PaulK. The Proposition Bank: An Annotated Corpus of Semantic Roles[J].Computational Linguistics, 2005, 31(1):71-106.

[13] Hajič, Jan, Ciaramita M, et al. The CoNLL-2009 Shared Task:Syntactic and Semantic Dependencies in Multiple Languages[C]\ThirteenthConference on Computational Natural Language Learning: Shared Task. Associationfor Computational Linguistics, 2009:1-18.

[14] Oepen, S., Kuhlmann, M.,Miyao, Y., et al. SemEval 2014 Task 8: Broad-Coverage Semantic DependencyParsing[C]\Proceedings of the 8th International Workshop on SemanticEvaluation (SemEval 2014), 2014: 63-72.

[15] Xue, N., Xia, F., Chiou,F., Palmer, M. The Penn Chinese TreeBank: Phrase Structure Annotation of aLarge Corpus[J]. Natural Language Engineering, volume 11(2), 2005: 207-238.

[16] Bin Li, YuanWen, LijunBu, et al. Annotating the Little Prince with Chinese AMRs[C]\Proceedings ofthe 10th Linguistic Annotation Workshop. Berlin, Aug, 2016.

[17] Nianwen Xue, MarthaPalmer. 2009. Adding Semantic Roles to the Chinese Treebank[J]. NaturalLanguage Engineering, 15(1):143-172.

[18] Cai, S., Knight, K.Smatch: an Evaluation Metric for Semantic Feature Structures[C]\Proceedings ofthe 51st Annual Meeting of the Association for Computational Linguistics.Sofia, Bulgaria, August 4-9, 2013: 748-752.

[19] Pourdamghani, N., Gao Y,Hermjakob, U., et al. Aligning English Strings with Abstract MeaningRepresentation Graphs[C]\Proceedings of the 2014 Conference on EmpiricalMethods in Natural Language Processing (EMNLP). 2014: 425-429.

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://blog.sciencenet.cn/blog-39714-1069586.html

上一篇：给自己五年前的书补一个介绍——动宾搭配的语义分析和计算
下一篇：第二本书出版啦！《词语认知属性的知识库构建和应用》

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

博文

中文AMR语料库的构建工作简介

当前推荐数：1 推荐人：杨学祥

该博文允许注册用户评论请点击登录评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

中文AMR语料库的构建工作简介

当前推荐数：1 推荐人： 杨学祥

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

当前推荐数：1 推荐人：杨学祥

该博文允许注册用户评论请点击登录评论 (0 个评论)