[转载]融合篇章结构位置编码的神经机器翻译
已有 2676 次阅读
2020-10-14 13:44
| 个人分类:智能科学与技术学报 | 系统分类:观点评述 |
神经机器翻译, 篇章结构, 位置编码, 篇章分析, 修辞结构理论
| 文章来源:转载
融合篇章结构位置编码的神经机器翻译
亢晓勉 1,2 , 宗成庆 1,2
1 中国科学院自动化研究所模式识别国家重点实验室,北京 100190
2 中国科学院大学,北京 100049
【摘 要】 现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。 【关键词】 神经机器翻译 ; 篇章结构 ; 位置编码 ; 篇章分析 ; 修辞结构理论
亢晓勉,宗成庆. 融合篇章结构位置编码的神经机器翻译[J]. 智能科学与技术学报, 2020, 2(2): 144-152.
KANG X M, ZONG C Q. Fusion of discourse structural position encoding for neural machine translation[J]. Chinese Journal of Intelligent Science and Technology, 2020, 2(2): 144-152.
近年来,随着人工智能技术在自然语言处理任务中的广泛应用 ,机器翻译(machine translation, MT)得到了快速发展。但是,无论是基于规则的翻译方法,还是统计机器翻译(statistical machine translation,SMT)方法和神经机器翻译(neural machine translation,NMT)方法,通常是以句子为单位进行翻译的。在实际场景中,常常需要翻译一个完整的段落或者文档,此时句子级的翻译系统只能孤立地翻译文档中的每个句子。但事实上,文档具有衔接性和连贯性,文档中的句子之间存在指代、省略、重复等衔接现象和语义的连贯关系。因此,在翻译时应当考虑文档上下文的影响,确保生成更加准确、连贯的译文。尽管近年来研究人员不断提出文档级别的机器翻译方法,但很少有工作关注篇章语义单元之间的结构关系。特别是在NMT系统中,目前的文档级神经机器翻译(document-level neural machine translation,DocNMT)方法主要着力于网络结构的设计,以更有效地利用上下文句子。一部分研究者也开始针对文档中的衔接现象提出了相应的评价方法和模型。 但这些工作在利用上下文时大多直接使用注意力(attention)机制自动学习单词之间的关系,并未对篇章语言学理论中研究的篇章单元之间的结构化信息进行建模。针对这一问题,本文首次探索了在DocNMT系统中融合篇章结构信息。 文档的结构化表示早已引起篇章语言学者的关注。他们提出了主位推进理论、分段式语篇表示理论等篇章理论,对文档中语义单元之间的关系进行了形式化表示。其中,修辞结构理论(rhetorical structure theory,RST)得到了广泛研究和应用。RST认为,文档可以用树形结构来表示。树的叶节点被称为基本篇章单元(elementary discourse unit,EDU),是最小的篇章语义单位。非终端节点由 2 个或多个相邻的篇章单元向上合并构成。在合并时,语义上更加重要的单元被称为“核心(nucleus)”,修饰“核心”的其他单元则被称为“卫星(satellite)”。“核心-卫星”关系又被细化为转折、递进等多种修辞关系。在图1所示的例子中,文档包含 3 个句子( S 1 ~S 3 ),被切分为 4 个 EDU ( e 1 ~e 4 )。 图中的树结构中标注了3种修辞关系(证明、连接、阐述),箭头所指为“核心”单元。 RST风格的篇章自动分析器的构建任务一直是篇章分析的重要研究方向,RST结构也被成功应用于情感分析、自动文摘等自然处理任务中。 在机器翻译中,参考文献基于目标端RST结构设计了评价方法。 参考文献在SMT系统中针对复句的翻译提出了根据RST结构对EDU的翻译进行调序的方法。 但在 NMT 系统中,尚未有工作探索如何利用篇章的结构信息。
本文针对NMT中Transformer结构的特点,首次提出在文档翻译中采用位置编码的方式来融合基于RST的篇章结构信息。本文以段落为单位进行翻译。首先,笔者通过已有的篇章分析工具对源端待翻译的段落进行解析,得到对应的篇章树。之后,本文提出了5种简单而有效的策略,对每个单词在篇章树中所属的EDU范围、EDU之间的层次位置、“核心-卫星”关系等结构信息进行编码表示,通过位置编码的方式增强编码器对源语言单词的编码能力。本文在 DocNMT 模型上对提出的篇章结构位置编码策略进行了验证。在英译中和英译德任务的多个数据集上的实验结果表明,本文的方法可以有效地编码篇章中的结构信息,从而改善文档翻译的质量。在英译中任务上,翻译评价指标(bilingual evaluation understudy,BLEU)值获得了最高0.78个百分点的提升。 2.1 文档级机器翻译 DocNMT 模型所利用的上下文既可以是源语言端的其他句子, 也可以是目标语言端翻译过的历史句子。 同时,根据上下文句子所在的范围,DocNMT 方法还可以被分为在线(online)方法和离线(offline)方法:前者仅利用当前待翻译句子之前的句子作为上下文,而后者则使用文档中除当前翻译句子之外的所有句子作为上下文。由于篇章树结构的构建需要全局的上下文,因此在本文中,设定待翻译句子的上下文为源语言端的所有其他句子。 已有 DocNMT 方法对上下文的使用方式主要包含2类:级联和层次化。参考文献将所有上下文句子级联成一个更长的单词序列,进而通过注意力机制进行编码。参考文献则先对每个上下文句子分别进行attention操作,生成各自的句子向量,再对句子向量进行 attention,生成最终的上下文语义表示。 无论设定何种上下文来源和使用方式,现有的DocNMT模型都没有利用篇章结构信息,且没有对篇章结构信息进行建模。
2.2 Transformer
NMT是目前主流的机器翻译方法。它采用端到端的序列生成框架,包括编码器和解码器 2 个部分。在翻译时,NMT先通过编码器将源语言句子中的单词编码为语义表征向量,再由解码器根据源端的语义表征向量和已经生成的目标端历史序列,逐词地生成目标端的翻译结果。Vaswani等人于2017年提出了Transformer结构,在多个翻译任务上的性能都明显地超越了基于循环神经网络和卷积神经网络的NMT方法。本文提出的方法和基准模型是基于Transformer结构实现的。 Transformer结构通过多头自注意力(multi-head self-attention)机制直接捕捉句子中任意2个单词之间的关系。具体地,设词向量维度为 d,源语言句子为 。经过线性变换,可以得到3个不同的向量:
其中, 为线性变换矩阵。
通过Q与K的点积操作,自注意力机制可以建立任意2个单词之间的直接关联,更利于并行计算。 然而,点积造成了序列中位置信息的缺失。因此,为记录单词在句子序列中的位置 pos, Transformer 在编码和解码词向量时引入了重要的位置编码(position encoding,PE)向量。该向量由位置编码函数TransPE(·)得到,计算过程如下:
其中,d为向量的总维度,i为某一维度对应的索引。当 i 为奇数时, ;当 i 为偶数时, 。 原始的位置编码采用的是单词在句子中的绝对位置。在此基础上,参考文献提出了相对位置编码。参考文献采用基于依存句法结构的绝对位置编码和相对位置编码,进一步提升了翻译性能。受这些工作的启发,本文探索基于RST树结构的位置编码,从而有效地利用篇章分析得到的结构信息来帮助提升翻译质量。
• EDU 是树的叶节点,通常由小句或短语构成。EDU之间不存在交叉或覆盖,因此文档中的一个单词只能位于一个EDU中。 • 一个非终端节点由它的子节点依据修辞关系合并构成,它包含的文本不要求以句子为单位。 • 篇章树具有多层级的结构,不同EDU在树上的深度不同。 • 合并2个节点时,在语义上,“核心”比“卫星”更加重要。 针对上述RST篇章结构的特点,本文充分利用篇章树中的EDU边界、层级结构和“核心-卫星”关系等结构信息,在第3.1~3.3 节分别设计了5种位置编码策略:绝对EDU位置编码(Abs EDU-PE)、相对EDU位置编码(Rel EDU-PE)、绝对深度位置编码(Abs Depth-PE)、相对深度位置编码(Rel Depth PE)、路径位置编码(Path-PE)。图2 给出了这些编码的示例。需要注意的是,这些位置编码都是以EDU为单位的,因此同一个EDU中的单词拥有相同的篇章结构位置编码。在第3.4节中,笔者将这些位置编码与DocNMT系统进行融合。 3.1 EDU位置编码
根据单词所处 EDU 在文档中的位置,本文首先提出了 EDU 位置编码(EDU-PE)。它能够使模型在编码过程中更加清晰地区分由 EDU 分割的语义边界。本文考虑了绝对 EDU 位置编码(Abs EDU-PE)和相对EDU位置编码(Rel EDU-PE)2种策略。相对 EDU 位置编码是根据上下文单词所处EDU相对于当前编码单词所处EDU的位置进行编码的,当前EDU中的单词的位置编码为0,位于它前面的EDU编码为负值,位于它后面的EDU编码为正值。 3.2 深度位置编码
为了利用单词所处 EDU 在篇章树上的深度信息,本文提出了绝对深度位置编码和相对深度位置编码2种策略。 (1)EDU节点的绝对深度abs_depth的计算 步骤 1 计算各 EDU 节点的原始深度ori_depth。本文定义最上层EDU节点的原始深度为0,其他EDU节点的原始深度自顶向下逐层递增。在图2中, e 1 、 e2 、 e3 、 e4 的原始深度分别为0、2、2、1。 步骤2 若2个EDU节点互为兄弟节点且构成“核心-卫星”关系,则对它们的深度进行修正(具有“多核心”关系的 EDU 的绝对深度和相对深度不修正)。虽然这2个EDU在篇章树上的原始深度相同,但核心EDU比卫星EDU更重要,因此核心EDU 的绝对深度abs_depth=ori_depth-0.5,卫星EDU的绝对深度abs_depth=ori_depth+0.5。例如图2中, e 2 、 e 3 的绝对深度分别被修正为2-0.5=1.5和2+0.5=2.5。 (2)EDU节点的相对深度rel_depth的计算 步骤1 计算各EDU节点的原始深度ori_depth。其计算过程与计算绝对深度的步骤1相同。 步骤 2 计算 EDU 的相对原始深度ori_depth rel 。当前EDU节点e的相对原始深度为固定值 0。其他 EDU 节点e′的相对原始深度为ori_depth rel =ori_depth(e′)-ori_depth(e)。在图2的例子中,若e 2 为当前 EDU,则 e 1 、 e2 、 e3 、 e4 的相对原始深度分别为-2、0、0、-1。
步骤3 若2个EDU节点互为兄弟节点,并且构成“核心-卫星”关系,那么需要基于相对原始深度ori_depthrel 对它们进行深度修正。修正方式与计算绝对深度的步骤2相同,当前EDU节点的相对深度不做修正。因此,e 2 、e 3 的相对深度分别为0和0+0.5=0.5。 3.3 路径位置编码
本节根据篇章树上EDU之间的路径和“核心-卫星”关系计算路径位置编码。首先,本文根据“核心-卫星”关系对篇章树上所有的边进行赋值。“核心”边的权重为常数w N (w N ≥0.5),“卫星”边的权重为 w S =1- w N 。其次,固定当前EDU节点e中单词的路径位置编码为0。对任意的其他EDU节点e',通过以下3个步骤计算它的路径位置编码。 步骤1 在树上寻找e与e′的共同父节点n fathe r 。 步骤 2 分别得到e′到 n father 的路径Path(e'→ n father )和 e 到 n father 的路径Path(e→ n father )。找到位于Path(e→ n father )上的 n father 的子节点,记作 。 步骤3 节点e′相对于当前EDU节点e的路径位置编码PathPE(e')的计算式如下:
2的示例中,假设当前的EDU节点e= e 2 ,核心边权重 w N =0.8 。在计算节点e′= e 1 相对于e 2 的路径位置编码时,依据上述步骤可以得到 n father =n 1 4 , Path(e'→n father )=e 1 →n 14 , Path(e→nfather )=e 2 →n 23 →n 24 →n 14 , =n24 。因此,P(e,e′)中包含的边有3条: e 1 →n 14 (w N )、 e 2 →n 23 (w N )、 n 23 →n 24 (w N ) 。则e1 相对于e 2 的路径位置编码表示为1/(1-log 0.8 × 3)≈0.77。
3.4 与机器翻译的融合
本文将上述方法得到的各种位置表示统一称为篇章结构位置(discourse structural position, DSP)。本文将篇章结构位置编码与Transformer结构下的文档翻译模型进行融合。本文在实验中对比了以下2种融合方式。 与原始Transformer中的单词绝对位置编码一样,本文将经过 TransPE(.)得到的篇章结构位置编码TransPE(DSP)直接与词向量相加。 受参考文献的启发,本文尝试将篇章结构位置编码 TransPE(DSP)与原始的单词绝对位置编码 TransPE(pos)通过非线性函数进行融合,得到最终的位置编码,再与词向量相加,如式(5)所示:
其中,W和b是可学习的参数。多种篇章结构位置编码可以混合使用,此时非线性融合方式中的TransPE(DSP)为多种位置编码的级联。
4.1 实验数据 本文的实验使用英译中、英译德的TED演讲数据和英译德 Europarl 数据。其中,TED 演讲数据来自IWSLT17评测,英译中和英译德的TED演讲数据分别包含1 906 和1 698篇演讲,平均每篇演讲包含121个句子。在2个语言对上均选取dev-2010作为开发集,tst-2013~2015作为测试集。考虑到TED数据集规模较小,本文也在大规模的Europarl数据上进行了实验。该数据由Maruf等人整理提供。本文中训练集、开发集、测试集的设置与参考文献一致。 在实验时,考虑到内存大小的限制,笔者对原始的文本进行段落划分,将一个段落视作一个篇章来验证本文的方法。本文采用与参考文献相同的设置,以每 16 个句子作为一个段落进行划分。划分后的数据规模的统计见表1。表中数据分别表示训练集、开发集和测试集的规模。
4.2 基准模型
本文在基于Transformer结构的DocNMT模型上进行实验。为了公平起见,本文选择在编码器端对上下文信息进行融合。由于篇章树的构建要求分析篇章中的所有句子,因此本文的翻译模型使用离线的上下文,即文档中除当前句子之外的所有其他句子。因此,本文在参考文献提出的 2 种使用离线上下文的文档翻译方法(FlatAtt、HierAtt)中加入篇章结构位置编码。本文将与以下3个基准模型进行比较。 • Base:标准句子级Transformer翻译模型。该模型使用参考文献中的“base”模型进行参数设置。 • FlatAtt:参考文献中的“Attention word”策略。即分别对每个上下文句子进行编码,再将编码后的所有上下文单词的状态向量进行拼接得到新的序列,计算当前单词与该序列中单词的attention。 • HierAtt:该模型分别计算当前单词与每个上下文句子中单词的 attention 以及整个句子的attention。本文采用参考文献中的“H-Attention sparse-soft”策略。 本文使用开源工具THUNMT复现了上述3个基准模型。所有模型均使用6层编码器和6层解码器,多头注意力机制的头数为 8,隐变量和前馈层的维度大小分别为512和2 048。在英译中TED任务中,英文和中文词表大小分别为25 K 和30 K。在英译德翻译任务中,源语言和目标语言共享同一个词表,在 TED 语料和 Europarl 语料上的词表规模分别为15 K和30 K。所有语料在翻译前都要通过双字节编码(byte pair encoding,BPE)处理切分为子词。由于本文提出的篇章结构位置编码得到的是词的位置表示,因此属于同一个单词的子词具有相同的篇章结构位置编码。 现有的 DocNMT 模型大多是通过两阶段法训练得到的:第一阶段训练一个句子级的翻译系统,在此基础上再在第二阶段训练文档级翻译的相关模块。本文只在DocNMT模型训练的第二阶段引入篇章结构位置编码。在训练时,本文以段落为单位随机打乱语料,但不改变段落内部的句子顺序。训练的最小批次设置为3 000个字符。本文的模型参数通过 Adam 方法进行更新,该方法中的参数β1 =0.98,β2 =0.98。 4.3 RST篇章分析
本文提出的方法需要提前解析被翻译的文档。RST 风格的篇章自动分析器的构建一直是篇章分析中的重要研究方向。RST风格的篇章分析主要包括2个步骤:EDU的切分和树结构的建立。目前基于神经网络的英文篇章分析器已经取得了不错的效果。由于缺少标注语料等问题,其他语言上的RST篇章分析的研究成果较少,因此本文以英文作为翻译的源语言来验证本文提出的方法。本文使用开源的英文RST篇章分析工具DPLP对英文段落进行解析得到树结构。不考虑修辞关系识别的结果,DPLP结构解析的核心性(nuclearity)F1值在公开的新闻领域测试集上可以达到71.13 %。由于训练该工具的RST语料是在新闻领域进行标注的,所以本文对DPLP在TED演讲数据上的表现做了简单分析。本文从英译德 TED语料中随机抽取50个段落,人工标注了它们的篇章结构树。在50个段落中使用DPLP进行自动解析的核心性F1值为58.3%。 可以看出,尽管DPLP在TED演讲数据上相比标准新闻领域测试集性能有明显下降,但仍然可以正确解析多数的篇章结构。因此,本文利用该篇章分析工具的结果在DocNMT中引入篇章结构信息。
本文在英译中TED演讲数据、英译德TED演讲数据和英译德Europarl数据集上测试提出的篇章结构位置编码方法,用BLEU值评价翻译的译文质量。在解码时,束搜索的大小设为4。 5.1 路径位置编码中的权重
为了确定在路径位置编码计算(第3.3节)中最优的“核心”边权重wN ,本文在英译德TED开发集数据上进行调参。本文在HierAtt模型上使用非线性融合方式加入路径位置编码。不同“核心”边权重的BLEU值如图3所示。当wN 为0.8时,融合Path-PE的文档级翻译模型能生成BLEU值最大的译文。在后续实验中,wN 的取值为0.8。
5.2 篇章结构位置编码策略的比较
本文首先在英译德 TED 开发集数据上讨论了不同的篇章结构位置编码策略和融合方式对DocNMT 模型性能的影响。本节实验统一采用HierAtt模型。篇章结构位置编码策略的比较见表2。 表2中模型3~7使用第3.4节中的加法融合方式,在DocNMT模型中引入篇章结构位置编码;模型8~12使用非线性融合方式。从表2可以看出以下信息。 • 在文档级翻译模型HierAtt中增加篇章结构位置编码后可以提升BLEU值,其中,通过非线性的方式融合路径位置编码(模型12)带来的提升最大,提升了0.51%。 • 对比 2 种融合方式可以看出,在对深度位置编码和路径位置编码进行融合时,非线性融合方式的效果优于加法融合方式。这 2 种编码策略与RST树的层次结构相关。而对于EDU位置编码的使用来说,2种融合方式没有明显区别。 • 对比分别使用EDU信息(模型3~4、8~9)、深度信息(模型5~6、10~11)和路径信息(模型7、12)的编码策略可以看出,路径位置编码对模型性能的改善最为显著,深度位置编码(Depth-PE)次之,EDU位置编码(EDU-PE)带来的提升最小。 • 在加法融合方式中(模型 3 对比模型 4,模型 5 对比模型 6),绝对位置编码的翻译效果更好,而在非线性融合方式中(模型8 对比模型 9,模型10对比模型11),相对位置编码的翻译效果更好。但无论是绝对位置编码还是相对位置编码,同种融合方式下二者的差异并不显著。 基于上述分析,本文选择基于非线性融合方式的3种策略:相对EDU位置编码、相对深度位置编码和路径位置编码作为之后实验的篇章结构位置编码。 5.3 主要结果
本文分别在第4.1 节所述的英译中TED 演讲数据、英译德TED演讲数据和英译德Europarl测试集上进行测试。表3展示了在HierAtt模型上运用非线性融合方式加入篇章结构位置编码后的BLEU值。表3中,“+”表示在HierAtt模型中加入篇章结构位置编码,“*”表示进行显著性检验后相较于 HierAtt统计显著(显著性检验概率p>0.5)。各测试集中BLEU值最高的结果用粗体标记。 与句子级的翻译模型(Base)相比,文档级翻译模型(HierAtt)可以借助全局的上下文提升翻译质量,在此基础上,加入本文提出的篇章结构位置编码可以进一步提升文档级翻译模型的性能。与HierAtt模型相比,本文的方法在英译中TED演讲数据、英译德 TED 演讲数据和英译德 Europarl 数据上的 BLEU 值分别取得了最高 0.78%、0.66%和0.52%的提升。
同时,根据表3的实验结果可以得出如下结论。
• 相较于仅包含序列化 EDU 切分信息的EDU位置编码,基于篇章树的层级结构和“核心-卫星”关系的深度位置编码和路径位置编码对提升翻译质量有更大的帮助。
• 同时使用多种编码策略的效果优于单独使用一种编码策略。不同的编码策略可以从不同角度更全面地捕捉篇章中位于不同 EDU 之间的单词的结构关联。
5.4 篇章结构位置编码对模型的影响
本节讨论篇章结构位置编码在不同的文档级翻译模型上的影响大小。本文分别在2种文档级翻译模型FlatAtt和HierAtt中同时加入相对EDU位置编码、相对深度位置编码和路径位置编码,不同的文档级翻译模型在英译中 TED 测试集上的结果见表4。可以看出,尽管使用层次化 attention 的HierAtt模型能够更好地利用上下文信息,但篇章结构位置编码对FlatAtt模型的提升更加显著。
篇章结构是语义的一种形式化表示,已经在篇章分析领域被研究多年。然而,对于文档级神经机器翻译而言,目前的方法大多只是从模型的角度出发去探索有效的网络结构,并未真正利用篇章分析的结论对模型进行指导。 本文首次尝试探索了修辞结构理论表示的篇章结构在基于 Transformer 的文档级神经机器翻译中的应用。本文提出了多种篇章结构位置编码策略,对RST篇章树中的EDU边界、深度、“核心-卫星”关系等结构信息进行了表示,并通过位置编码与文档级翻译模型进行融合,在一定程度上改善了文档级翻译模型的性能。 在未来工作中,笔者将进一步探索:如何在翻译模型中模拟对篇章结构的解析过程,减少篇章分析工具带来的误差传递;如何利用大规模单语文档数据自动地学习适合于翻译任务的篇章结构,缓解模型对篇章分析工具的依赖。 作者简介 About authors
亢晓勉(1991-),男,中国科学院自动化研究所模式识别国家重点实验室博士生,主要研究方向为机器翻译、篇章分析 。 宗成庆(1963-),男,博士,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,主要研究方向为机器翻译、自然语言处理和文本数据挖掘等。
转载本文请联系原作者获取授权,同时请注明本文来自王晓科学网博客。 链接地址: https://blog.sciencenet.cn/blog-951291-1254354.html
上一篇:
[转载]智能科技+平行哲学,让世界更加美好 下一篇:
[转载]基于区块链技术的高速公路收费凭证信息认证方法研究