|
引用本文
黄鑫, 张家俊, 宗成庆. 基于跨模态实体信息融合的神经机器翻译方法. 自动化学报, 2023, 49(6): 1170−1180 doi: 10.16383/j.aas.c220230
Huang Xin, Zhang Jia-Jun, Zong Cheng-Qing. Neural machine translation method based on cross-modal entity information fusion. Acta Automatica Sinica, 2023, 49(6): 1170−1180 doi: 10.16383/j.aas.c220230
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220230
关键词
实体重构,跨模态学习,多任务学习,多模态机器翻译
摘要
现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合. 这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题, 并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题. 针对这些问题, 提出了一种跨模态实体重构(Cross-modal entity reconstruction, CER)方法. 区别于将完整的图片输入到翻译模型中, 该方法显式对齐文本与图像中的实体, 通过文本上下文与一种模态的实体的组合来重构另一种模态的实体, 最终达到实体级的跨模态语义融合的目的, 通过多任务学习方法将CER模型与翻译模型结合, 达到提升翻译质量的目的. 该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率. 进一步的分析实验表明, 该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.
文章导读
神经网络方法在计算机视觉和自然语言处理等领域均取得了很好的效果. 因此, 通过图像和文本跨模态信息融合的方式来提高机器翻译的质量也成为了可能. 多模态机器翻译(Multi-modal machine translation, MMT)就是一种通过在文本中融入视觉信息来提升翻译质量的机器翻译方法[1-2]. 目前的相关研究主要针对图像描述的翻译. 相比于描述图像的文本, 图像自身包含了更完整的信息. 因此, 将视觉信息作为文本以外的补充知识提供给翻译模型能够获得更加准确的译文, 是多模态机器翻译的一个基本假设[3].
然而, 如何有效地将视觉信息融入到翻译中成为了研究者们所面临的挑战. 早期的相关研究[4-8]尝试在神经机器翻译(Neural machine translation, NMT)模型中输入经过卷积神经网络(Convolutional neural network, CNN)提取得到的图像全局特征来达到跨模态信息融合的目的. 另有研究工作尝试利用注意力机制使翻译模型能够动态地关注图片内部的局部信息[9-12]. 为了输入图像内部与文本内容相关的信息, 文献[13]尝试在NMT模型中输入经过提取的图片内部视觉目标. 然而以上方法在设计上并没有考虑视觉信息如何明确地作用到翻译任务中, 使得视觉信息在翻译过程中的具体贡献不明确. 文献[14-16]为了探究视觉信息是否在翻译的过程中有所帮助, 将MMT模型的输入图片替换为与文本内容不相关的图片, 并观察到模型的翻译性能没有显著下降. 该实验结果表明翻译模型对视觉信息不敏感. 这是因为MMT模型在生成译文时可以很容易地从与参考译文有良好对齐关系的原文中寻找有用信息, 并且原文本已经包含了大部分翻译所需信息, 所以多数情况下模型没有必要从图片中寻找补充信息.
针对以上问题, 本文提出了跨模态实体重构 (Cross-modal entity reconstruction, CER)方法, 用于帮助NMT模型提升译文质量. 区别于其他方法将图片中的视觉信息与整个句子进行语义融合, CER以更加明确的方式针对实体进行跨模态信息的融合. 这样做能够保证具有相同语义的文本实体和视觉实体产生直接的相互作用. CER模型主要负责文本实体和视觉实体的重构. 文本实体的重构主要依赖于文本上下文和视觉实体所提供的信息. 文献[17]的研究表明, 文本中实体缺失时MMT模型开始关注图片中的信息. 为了确保CER模型在重构文本实体时主要从视觉实体中获得信息, 本文对输入的文本上下文采用退化操作, 即删除文本中的文本实体. 文献[18]中采用了类似的方法来生成整个源端或目标端文本, 证明了退化文本与视觉实体的结合方式的有效性. 本文首次采用了视觉实体重构方法. 视觉实体重构主要依赖于文本实体与文本上下文所提供的信息. 文献[19]曾尝试利用文本生成整张图片的方法, 但这种方法更难对齐两个模态的语义信息. 本文所提视觉实体重构则以更细粒度且更精确的方式进行文本到图像的生成任务. 本文还在CER模型训练的过程中加入了少量的非实体文本的重构, 以保证实体与非实体之间语义关系的建立. CER的混合重构方法能够保证实体级的视觉信息与文本信息的充分融合. 最后, 通过多任务学习方法将CER模型与NMT模型进行部分参数的共享, 达到提升翻译性能的目的. 实验结果表明, CER能够很好地帮助NMT模型提升译文质量. 在进一步的分析实验中发现, CER能够帮助NMT模型提升在翻译过程中对源端文本实体的忠实度, 使NMT模型更准确地从源端实体词中获得信息.
本文主要贡献如下: 1) 提出了跨模态实体重构方法, 在MMT常用数据集Multi30K上验证了CER能够帮助翻译获得很好的性能提升; 2) 验证了采用明确的方式融合跨模态信息的方法的有效性, 从方法上规避了MMT模型在训练阶段对视觉信息不敏感的问题; 3) 实现了双向的实体级跨模态信息的融合, 使视觉信息更充分地融入到文本中; 4) 验证了实体级信息融合具有更强的可解释性, 跨模态的实体信息融合可以帮助NMT模型在生成目标端实体时更忠实于源端实体所提供的信息.
图 1 显式实体对齐示例
图 2 结合跨模态实体重构方法的神经机器翻译模型图
图 3 超参数ω对CER-NMT翻译性能的影响
本文提出了一种跨模态实体重构方法用于探究以显式方式融合视觉信息与文本信息的可行性. 在翻译性能方面, 实验结果表明, CER-NMT能够在英译德和英译法两个数据集上达到更高的翻译准确率. 在消融实验中发现, 视觉实体重构、文本实体重构以及文本非实体重构三种重构方法组合后NMT模型从视觉信息中获益最大. 最后, 本文尝试验证该显式方法的可解释性, 实验结果表明跨模态实体重构方法显著地增加了模型对源端文本实体的忠实度, 从而带来翻译质量的提升.
作者简介
黄鑫
中国科学院自动化研究所模式识别国家重点实验室博士研究生. 主要研究方向为多模态机器翻译. E-mail: xin.huang@nlpr.ia.ac.cn
张家俊
中国科学院自动化研究所研究员, 中国科学院大学岗位教授. 主要研究方向为机器翻译和自然语言处理. E-mail: jjzhang@nlpr.ia.ac.cn
宗成庆
中国科学院自动化研究所研究员, 中国科学院大学岗位教授, 中国计算机学会会士, 中国人工智能学会会士. 主要研究方向为自然语言处理, 机器翻译. 本文通信作者. E-mail: cqzong@nlpr.ia.ac.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 10:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社