|
引用本文
张颖, 张冰冰, 董微, 安峰民, 张建新, 张强. 基于语言−视觉对比学习的多模态视频行为识别方法. 自动化学报, 2024, 50(2): 417−430 doi: 10.16383/j.aas.c230159
Zhang Ying, Zhang Bing-Bing, Dong Wei, An Feng-Min, Zhang Jian-Xin, Zhang Qiang. Multi-modal video action recognition method based on language-visual contrastive learning. Acta Automatica Sinica, 2024, 50(2): 417−430 doi: 10.16383/j.aas.c230159
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230159
关键词
视频行为识别,语言−视觉对比学习,多模态模型,时序建模,提示学习
摘要
以对比语言−图像预训练(Contrastive language-image pre-training, CLIP)模型为基础, 提出一种面向视频行为识别的多模态模型, 该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展, 可更好地学习多模态视频表达. 具体地, 在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM), 首先, 由视频采样帧的类别分词做线性变换得到虚拟帧分词; 然后, 对其进行基于时序卷积和虚拟帧分词移位的时序建模操作, 有效建模视频中的时空变化信息; 最后, 在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module, VPM), 通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达. 在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果, 验证了该多模态模型的有效性和泛化性.
文章导读
视频行为识别是视频理解领域中的重要问题, 其致力于识别视频中人类的不同行为[1-3], 在智能监控、人机交互、医疗健康等众多领域扮演着重要的角色. 进入深度学习时代以来, 以卷积神经网络(Convolution neural network, CNN)[4-12]和视觉Transformer (Vision transformer, ViT)[13-17]为基础网络的视频行为识别模型取得了极大发展. 目前, 广泛使用的视频行为识别模型都是在预定义好类别的人工标注数据集上, 以监督学习的方式进行闭集训练. 这类模型只关注视觉表示, 将类别名称转换为矢量标签以简化训练过程, 从而忽略了类别名称的语义信息, 导致学习到的特征对训练数据类别的依赖性高、泛化性差, 识别训练数据类别以外的视频需要重新标注数据以提供监督信号并进行额外的训练. 为实现学习视觉通用表示来解决各种现实问题的目标, 这种面向固定类别、只能解决单一问题的模型显然不能满足需求.
最近, 语言−视觉对比学习模型[18-20]开拓了解决闭集训练问题的思路, 给学习泛化性能更强的通用视觉表示带来了希望, 尤其是在零样本学习上表现出较大潜力. 这类模型保留类别标签的语言描述作为监督信号, 将视觉单模态模型拓展到语言−视觉多模态架构, 在亿级甚至10亿级别的语言−图像对上进行自监督训练, 以对比学习的方式同时优化语言和视觉编码器. 在测试过程中, 该对比学习模型直接将单模态架构下的概率模型转换为语言−图像的检索问题. 受到语言−视觉对比学习模型的启发, 本文尝试在视频行为识别任务中引入语言监督来辅助学习更广泛的视觉概念, 以获得泛化性更强的视频表达.
首先, 考虑到视频训练所需计算成本较高, 以及现有视频数据集规模相对较小的问题, 抛弃在语言−视频数据上从头进行预训练的做法, 致力于解决如何将对比语言−图像预训练(Contrastive language-image pre-training, CLIP)[18]模型迁移到视频行为识别任务的问题. 其次, 由于视频存在区别于图像的时序信息, 并且其类别标签所携带的语言信息十分有限, 完成CLIP模型从图像到视频的迁移和适应必须解决两个关键问题: 1)如何利用视频的时序信息; 2)如何强化现有类别标签的语言表达. 为此, 提出一种新的时序建模结构, 将图像编码器拓展为视频编码器. 该结构包含虚拟帧交互模块和全局帧融合模块两个关键部件. 虚拟帧交互模块借助“虚拟帧分词”完成帧间信息交互, 使帧级编码器能提供包含时序信息的帧级表达; 全局帧融合模块集成帧级特征, 得到视频表达. 同时, 针对问题2)提出视觉强化提示模块, 该模块通过注意力机制融合视觉信息, 自动生成语言提示, 将初级语言表达转换为强化语言表达. 依赖上述两方面拓展, CLIP模型可以有效适用于视频行为识别任务. 本文主要贡献如下:
1)在CLIP模型基础上, 提出一种新颖的基于语言−视觉对比学习的多模态视频行为识别模型, 将CLIP模型在图像领域的先验知识迁移至视频领域.
2)对于视觉编码器, 提出虚拟帧交互模块. 该模块首先使用视频采样帧的类别分词进行线性变换生成“虚拟帧分词”, 接着通过对“虚拟帧分词”进行时序卷积和虚拟帧分词移位操作完成帧间信息交互, 实现在网络中间层充分利用视频时序信息的目的.
3)对于语言分支, 提出视觉强化提示模块. 该模块通过注意力机制融合视频编码器输出的类别分词和视觉分词中带有的视觉信息, 自动生成适应视频行为识别的语言提示, 对语言编码器生成的初级语言表达进行加权来达到强化语言表达的目的.
4)在4个视频行为识别公开数据集上进行全监督、小样本和零样本实验, 验证本文模型的有效性和泛化性.
图 1 基于语言−视觉对比学习的多模态模型
图 2 虚拟帧交互模块
图 3 虚拟帧交互模块超参数消融实验结果
本文通过对CLIP模型进行扩展, 提出一种适用于视频行为识别任务的多模态模型. 该模型在视觉编码器中构造了虚拟帧交互模块, 完成网络中间层的跨帧信息交互, 更好地捕获了视频远距离及相邻帧之间的时间依赖信息; 同时, 在语言分支上构建了视觉强化提示模块, 通过注意力机制融合视觉分支输出分词中包含的视觉信息, 自动生成适应视频行为识别的语言提示, 强化视频的语言表达. 在全监督、小样本和零样本3种不同实验场景下的实验结果表明了本文多模态模型在视频行为识别任务上的有效性和泛化性.
在未来工作中, 将模型拓展到不同的视频理解任务中, 例如视频检索、视频标注、视频语义分割等. 此外, 考虑构建更优的语言提示学习模块和时空建模方式, 以进一步增强多模态模型的识别准确率.
作者简介
张颖
大连民族大学计算机科学与工程学院硕士研究生. 主要研究方向为视频行为识别. E-mail: z_ying1201@126.com
张冰冰
大连理工大学电子信息与电气工程学部博士研究生. 2016年获得长春工业大学硕士学位. 主要研究方向为人体行为识别, 图像分类和深度学习. E-mail: icyzhang@mail.dlut.edu.cn
董微
大连民族大学计算机科学与工程学院硕士研究生. 主要研究方向为视频行为识别. E-mail: vvvDongWei@163.com
安峰民
大连民族大学计算机科学与工程学院硕士研究生. 主要研究方向为视频行为识别. E-mail: anfengmin@163.com
张建新
大连民族大学计算机科学与工程学院教授. 主要研究方向为计算机视觉, 智能医学影像分析. 本文通信作者. E-mail: jxzhang0411@163.com
张强
大连理工大学电子信息与电气工程学部教授. 主要研究方向为大数据分析与处理, 机器行为与人机协同, 生物计算和人工智能. E-mail: zhangq@dlut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-2 13:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社