博文

自动化所宗成庆团队 | 综述: Transformer模型-从机器翻译到其他任务的通用框架

已有 1296 次阅读 2023-8-28 09:13 |个人分类:好文推荐|系统分类:论文交流

机器翻译是一项重要且具有挑战性的任务，旨在将自然语言句子从一种语言自动翻译成另一种语言。近年来，基于Transformer模型的神经机器翻译(NMT)在方法论和应用上都取得了重大突破，成为新的主流翻译方法。中国科学院自动化研究所宗成庆研究员团队概述了基于Transformer模型的神经机器翻译及其在其他任务的扩展应用。具体地，文章首先介绍了Transformer模型的整体结构，讨论了其在神经机器翻译中面临的主要挑战，并列出了应对每种挑战的代表性方法。接着列出了神经机器翻译的公共资源和工具。同时，简要介绍了Transformer模型在其他任务中的扩展应用，包括自然语言处理的其他任务、计算机视觉任务、语音相关任务和多模态任务。最后，提出了未来可行的研究方向。

题目图片.png

图片来自Springer

全文下载：

Transformer: A General Framework from Machine Translation to Others

Yang Zhao, Jiajun Zhang, Chengqing Zong

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1393-5

https://link.springer.com/article/10.1007/s11633-022-1393-5

全文导读

机器翻译(machine translation, MT)旨在利用计算机将自然语言句子从一种语言自动翻译成另一种语言。机器翻译系统一经出现，就成为了自然语言处理(natural language processing, NLP)甚至人工智能领域重要和具挑战性的任务之一。在许多研究者的努力下，机器翻译在方法和应用上都取得了显著的进步。

编码器-解码器框架

随着机器学习的快速发展和大规模平行语料库的出现，统计机器翻译方法在20世纪90年代出现并引起了人们的广泛关注。统计机器翻译不再是手动设计翻译规则，而是自动从平行语料库中学习语言模型和单词或短语映射。然而，统计机器翻译将源语言和目标语言句子表示为离散的符号，其表现并不尽如人意。

随着深度学习的突破，许多研究人员开始将深度神经网络应用到机器翻译中。早期的研究仍然基于统计机器翻译框架，他们利用深度神经网络设计新的特征或提取更准确的语义表示。在2013年和2014年，端到端神经机器翻译成为一种新的范式，并迅速取代统计机器翻译成为主流。神经机器翻译采用分布式的句子表征，利用一个完整的神经网络学习源语言句子到目标语言句子的映射。经过短短几年的发展，神经机器翻译的翻译质量有了明显的提高，并超过了统计机器翻译。在实际应用上，大量公司（如谷歌、微软和百度）都开发了自己的在线翻译系统，为用户提供越来越高质量的翻译服务。

从神经机器翻译的架构看，早期的架构主要为基于循环神经网络(recurrent neural network, RNN)的神经机器翻译和基于卷积神经网络(convolutional neural network, CNN)，它们利用循环神经网络和卷积神经网络计算源语言句子的表示并以此预测目标语言句子。2017年，研究人员提出了一个新的框架——基于自注意力机制神经机器翻译(Transformer)，并迅速推动了神经机器翻译领域的发展。目前，Transformer已经成为机器翻译的主流架构，在翻译质量和训练速度上都超过了基于卷积和循环神经网络的翻译框架。同时，Transformer又不仅仅局限于神经机器翻译任务，它已经扩展和应用到其他任务上，例如自然语言处理其他任务、计算机视觉任务、语音相关任务和多模态任务。

Transformer的模型框架

本文试图对基于Transformer的神经机器翻译进行综述，包括框架、主要挑战和对应的代表性方法以及神经机器翻译中可用的数据和工具。文章还简要介绍了Transformer在其他自然语言处理任务中的扩展应用，包括预训练语言模型、文本摘要、对话系统和知识图谱。最后，讨论了未来可行的研究方向。

本篇综述的剩余章节设置如下。第2节介绍了编码器-解码器框架和Transformer。第3节列出了神经机器翻译面临的主要挑战。第4节列出了应对每个挑战的代表性方法。第5节列出了神经机器翻译的资源和工具。第6节简要介绍了Transformer在其他任务中的应用。第7节介绍了神经机器翻译的现状。第8节提出了部分潜在的研究方向。

全文下载：

Transformer: A General Framework from Machine Translation to Others

Yang Zhao, Jiajun Zhang, Chengqing Zong

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1393-5

https://link.springer.com/article/10.1007/s11633-022-1393-5

BibTex:

@Article{MIR-2022-09-288,
author = {Yang Zhao and Jiajun Zhang and Chengqing Zong},
journal = {Machine Intelligence Research},
title = {Transformer: A General Framework from Machine Translation to Others},
year = {2023},
volume = {20},
number = {4},
pages = {514-538},
doi = {10.1007/s11633-022-1393-5}
}

作者照片.png
纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

∨关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

▼好文推荐▼

乔红院士团队 | 类脑智能机器人：理论分析与系统应用（机器智能研究MIR）

西电公茂果团队 | 综述: 多模态数据的联邦学习

高文院士团队 | 综述: 大规模多模态预训练模型

港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法

南航张道强教授团队 | 综述：用于脑影像基因组学的机器学习方法

ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法（机器智能研究MIR）

Luc Van Gool团队 | 深度学习视角下的视频息肉分割

专题综述 | 高效的视觉识别: 最新进展及类脑方法综述

北大黄铁军团队 | 专题综述：视觉信息的神经解码

专题综述 | 迈向脑启发计算机视觉的新范式

专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题