博文

高文院士团队 | 综述: 大规模多模态预训练模型

已有 1498 次阅读 2023-8-2 10:01 |个人分类:好文推荐|系统分类:论文交流

随着对通用深度模型的迫切需求，人们推出了许多预训练大模型，如双向编码器表示(BERT)、视觉变换器(ViT)、生成预训练转换器(GPT)等。这些模型在单一领域(如计算机视觉和自然语言处理)中取得了成功，受此启发，多模态预训练大模型近年来也受到了越来越多的关注。

北京大学高文院士团队对这些模型进行了全面综述，希望能提供新的见解，并帮助新研究人员跟进最前沿的工作。具体而言，团队首先通过回顾自然语言处理、计算机视觉和语音等领域的传统深度学习和预训练工作，介绍了多模态预训练的背景。然后介绍了多模态预训练模型(MM-PTMs)的任务定义、主要挑战和优势，并重点从数据、目标、网络架构和知识增强预训练等方面讨论了多模态预训练模型。随后介绍了用于验证大规模 MM-PTMs 的下游任务，包括生成、分类和回归任务。文章还对代表性下游任务的模型参数和结果进行了可视化分析。最后指出了可能有益于未来工作的研究方向。此外还将在此列表中持续更新有关大规模预训练多元模型的论文：

https://github.com/wangxiao5791509/MultiModal_BigModels_Survey。

题目.png

全文下载：

Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey

Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao

https://link.springer.com/article/10.1007/s11633-022-1410-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1410-8

全文导读

AlexNet在ImageNet竞赛中实现了识别性能的突破，人工智能因此快速发展。人们开发出了VGG、ResNet、Inception、长短期记忆网络(LSTM)等许多有代表性的深度神经网络。研究人员通常会针对自己的任务收集并注释一些样本，然后在大规模数据集(如计算机视觉领域的ImageNet、自然语言处理领域的Glove和skip-thought vectors)上基于预先训练好的骨干对模型进行训练。与传统的手工特征相比，这种端到端的方式可以很好地解决物体检测、分割和识别等许多任务。然而，深度模型的泛化能力仍然有限。收集和注释更大的数据集可以在一定程度上解决这些问题，但这一过程成本高且繁琐。

为解决这一问题，Vaswani等人开发了transformer网络，该网络在机器翻译任务中实现了新的先进性能(SOTA)。此后，在大规模语料库上进行自监督预训练，然后在下游任务上进行微调的方法吸引了越来越多研究人员的关注。许多预训练大模型都是按照这种范式开发的，如双向编码器表征(BERT)、生成式预训练变换器(GPT)、T5、XLNet 等，这也带来了计算机视觉(CV)界预训练研究的新亮点。越来越多的大规模自然语言处理(NLP)和计算机视觉模型证明了预训练-调整范式的出色效果，其中包括视觉变换器(ViT)和Swin-transformer。

虽然这些进展为人工智能的发展带来了新的动力，但单一模态的缺陷所带来的问题仍然难以解决。研究人员试图结合更多模态来弥补深度模型的数据缺口。许多基于多模态融合的任务也以传统的深度学习方式进行了探索，如 RGB、深度、自然语言、点云、音频、事件流等。人们相继推出了许多大规模预训练的多模态模型，并在下游任务上设定了新的 SOTA。本文将对这些研究进行全面概述，旨在帮助对该领域感兴趣的新研究人员快速了解其发展历史和最新进展。

图1：2019年至今多模态预训练大模型的发展里程碑

本综述结构。本文的第2节首先回顾了多模态预训练技术的背景，从传统的深度学习范式到单模态任务的预训练，包括自然语言处理、计算机视觉和语音处理。然后在第3.1-3.2节中重点介绍了MM-PTMs，并描述了其任务定义、面临的主要挑战和具有何种优势。第3.3-3.6节还回顾了重要组成部分，包括大规模数据、网络架构、优化目标和知识增强型预训练。为了验证预训练模型的有效性，本文使用了许多下游任务进行定量评估。在第4节中对这些任务的任务定义和评估指标进行了详细介绍。第5节回顾了用于训练的模型参数和硬件，并汇报了几个有代表性的下游任务实验结果。最后，在第6节中，对本次综述进行了总结，并提出了需要研究的多个研究方向。本综述的架构如图2所示。

图2：本综述框架

与现有综述的区别。虽然目前已有两篇关于MM-PTMs的综述，但本综述与现有综述的不同之处可归纳如下：

范围。现有的多模态综述只关注视觉-语言，但多模态信息问题是一个更广泛的研究课题。本文介绍了更多的模式，如音频、视频、表格等，比上述综述更加全面。

时效性。本文介绍了针对多模态预训练提出的最新数据集和算法(从2019年到2022年6月)，属于长篇综述，而以往综述属于短篇论文。

对MM-PTMs的新认识。本文从不同角度对现有的MM-PTMs进行了分类和分析，有助于读者从细节和高层次两个角度掌握前沿的方法和技术。此外，本文提出的MM-PTMs研究方向也是经过深思熟虑的，将为后续研究提供新的线索。

全文下载：

Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey

Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao

https://link.springer.com/article/10.1007/s11633-022-1410-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1410-8

BibTex:

@Article{MIR-2022-07-224,
author={Xiao Wang and Guangyao Chen and Guangwu Qian and Pengcheng Gao and Xiao-Yong Wei and Yaowei Wang and Yonghong Tian and Wen Gao},
journal={Machine Intelligence Research},
title={Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey},
year={2023},
volume={20},
number={4},
pages={447-482},
doi={10.1007/s11633-022-1410-8}
}

作者照片.png
纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

∨关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

▼好文推荐▼

乔红院士团队 | 类脑智能机器人：理论分析与系统应用（机器智能研究MIR）

港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法

南航张道强教授团队 | 综述：用于脑影像基因组学的机器学习方法

ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法（机器智能研究MIR）

Luc Van Gool团队 | 深度学习视角下的视频息肉分割

专题综述 | 高效的视觉识别: 最新进展及类脑方法综述

北大黄铁军团队 | 专题综述：视觉信息的神经解码

专题综述 | 迈向脑启发计算机视觉的新范式

专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题

戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络

ETH Zurich重磅综述 | 人脸-素描合成：一个新的挑战