IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于语境辅助转换器的图像标题生成算法

已有 1208 次阅读 2023-10-3 17:05 |系统分类:博客资讯

引用本文

 

连政, 王瑞, 李海昌, 姚辉, 胡晓惠. 基于语境辅助转换器的图像标题生成算法. 自动化学报, 2023, 49(9): 18891903 doi: 10.16383/j.aas.c220767

Lian Zheng, Wang Rui, Li Hai-Chang, Yao Hui, Hu Xiao-Hui. Context-assisted transformer for image captioning. Acta Automatica Sinica, 2023, 49(9): 18891903 doi: 10.16383/j.aas.c220767

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220767

 

关键词

 

图像标题生成,注意力机制,转换器,视觉连贯性 

 

摘要

 

在图像标题生成领域, 交叉注意力机制在建模语义查询与图像区域的关系方面, 已经取得了重要的进展. 然而, 其视觉连贯性仍有待探索. 为填补这项空白, 提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA)机制, 利用历史语境记忆(Historical context memory, HCM), 来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响. 同时, 提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)” 的正则化方法, 来限制每个CACA模块分配给历史语境的权重总和. 本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型, 构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型, 用于解决图像标题生成问题. 基于MS COCO (Microsoft common objects in context)数据集的实验结果证明, 与当前先进的方法相比, 该方法均实现了稳定的提升.

 

文章导读

 

图像标题生成(Image captioning)是一项跨越计算机视觉与自然语言处理领域的多模态生成式任务[1-5], 其主要目标是自动为图像生成准确的描述性语句. 这要求计算机不仅要充分理解图像中的对象以及它们之间的关系, 还要通过流畅的自然语言表达出图像的内容. 图像标题生成技术具有广泛的应用价值. 在学术研究当中, 它可以推动图文检索、视觉问答等多模态领域技术的发展. 在实际生活当中, 这项技术在幼儿的早期教育和视障人群辅助设备的设计方面发挥着重要作用.

 

受神经机器翻译领域研究的启发, 早期的基于深度神经网络的图像标题生成算法[6]采用了经典的编码器解码器 (Encoder-decoder)框架, 它将卷积神经网络(Convolutional neural network, CNN)作为编码器, 提取图像的全局特征, 再使用循环神经网络(Recurrent neural network, RNN)作为解码器对图像特征进行解码, 生成图像标题. 尽管经典的编码器解码器框架在图像标题生成领域取得了巨大的成功, 但是两个固有的缺陷严重限制了该框架的序列解码能力: 1) 图像的全局信息在初始时刻被一次性地输入到解码器当中, 而解码器缺少特征筛选的关键模块, 难以捕捉预测单词时所需的相关视觉特征; 2) 在整个序列预测的过程中, 作为解码器的循环神经网络会不断丢失一些重要的视觉信息, 从而导致语言模型在预测后期逐渐缺少了视觉信息的指导, 产生明显的误差累积, 降低图像标题的生成质量.

 

为了解决上述问题, 注意力机制(Attention mechanism)被引入到图像标题生成算法当中. 注意力机制拓展了经典的编码器解码器框架, 它允许解码器在图像标题生成的不同时刻关注到与当前语义查询最为相关的图像信息. 具体来讲, 基于注意力机制的图像标题生成算法不再只是使用图像的全局特征, 而是首先通过CNN提取图像的局部区域特征, 再使用基于长短期记忆(Long short-term memory, LSTM)网络的解码器对图像特征进行解码. 在每一个解码时刻, 注意力模块会将LSTM提供的隐藏状态作为语义查询, 为图像的各个区域分配不同的注意力权重, 再通过对各部分图像特征进行加权求和, 得到当前时刻的注意力语境特征, 进而指导语言模型生成图像标题. 近年来, 转换器(Transformer)[7]在自然语言处理领域得到了广泛的应用, 它通过多头注意力 (Multi-head attention)机制在多个语义空间中建模查询与键值对之间的关系. 在图像标题生成领域, Transformer首先依靠自注意力(Self-attention) 机制实现图像局部信息的融合, 然后通过解码器中的交叉注意力模块向语言模型中引入融合后的视觉特征, 实现不同模态的特征交互.

 

在当前主流的图像标题生成算法中, 交叉注意力机制在建模语义查询与图像区域之间的关系方面, 发挥着关键性的作用. 然而, 大多数现有的基于注意力机制的算法都忽视了视觉连贯性的潜在影响. 事实上, 我们人类往往会不由自主地回顾先前关注过的信息, 以便在当前时刻做出更加合理的注意力决策. 遗憾的是, 传统的交叉注意力机制无法实现这个意图. 为了弥补这项缺陷, 本文提出了一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA) 机制. 具体来讲, 在每一个解码时刻, CACA模块会首先根据当前输入的语义查询, 利用交叉注意力模块从图像特征中提取出与当前查询最为相关的临时语境特征, 并将其保存在历史语境记忆(Historical context memory, HCM), 然后将HCM中全部的历史语境特征与图像的局部特征相拼接, 作为键值对, 再次输入交叉注意力模块, 获取当前时刻最终的注意力语境特征. 同时, 为了限制每个CACA模块分配给历史语境的权重总和, 本文提出了一种名为自适应权重约束(Adaptive weight constraint, AWC)”的正则化方法, 从优化注意力权重分布的角度提升模型的泛化性能. 本文将CACA模块与AWC方法同时集成在转换器(Transformer)模型上, 构建了语境辅助的转换器(Context-assisted transformer, CAT)模型. 尽管Transformer模型可以通过自注意力层在一定程度上建模历史语义信息, 然而, 从信息论的角度来讲, 根据数据处理不等式[8]可知, 输入模型的特征向量在神经网络逐层的特征处理与消息传递过程中, 势必会丢失一部分关键信息, 这将导致交叉注意力模块在某一时刻建模的语义信息无法完整地传递到后续解码过程中并得到充分利用. 为此, CAT模型采用语境辅助的交叉注意力机制, 通过历史语境记忆保存了历史时刻中完整的交叉注意力语义特征, 充分利用序列预测过程中视觉信息的连贯性, 为解码过程提供更加丰富可靠的语境信息. 本文在流行的MS COCO (Microsoft common objects in context)数据集[9], 以多个基于Transformer的图像标题生成算法作为基线模型, 通过向解码器中引入CACA模块与AWC方法, 对所提算法进行了评价. 实验结果表明, 与众多先进的基线模型相比, 本文提出的方法在它们的基础上均实现了稳定的提升.

 

本文的后续内容安排如下: 1节主要介绍图像标题生成领域的相关工作; 2节详细介绍本文提出的方法; 3节通过大量的对比实验从众多角度对本文方法进行分析; 4节总结本文的研究成果, 并提出下一步的工作设想.

 1  多头注意力机制的结构

 2  语境辅助的交叉注意力机制与其轻量级的模型结构

 3  基于语境辅助转换器的图像标题生成模型

 

本文面向图像标题生成任务, 针对传统的交叉注意力机制缺乏视觉连贯性的问题, 提出了一种语境辅助的交叉注意力(CACA)机制, 通过历史语境记忆为注意力模块提供先前关注过的语义信息, 为语言模型提供更加丰富的语境特征, 从而提升图像标题的生成质量. 为了限制每一个CACA模块分配给历史语境特征的权重总和, 本文设计了一种自适应权重约束(AWC), 来提升模型的泛化能力. 本文将CACA模块与AWC方法集成到Transformer解码框架中, 构建了一种语境辅助的转换器(CAT)模型. 基于MS COCO数据集的实验结果表明, 与现有的多个基线模型相比, 本文提出的方法均取得了稳定的提升. 本文未来的研究工作将围绕历史语境特征在Transformer中的跨层交互展开探索.

 

作者简介

 

连政

中国科学院软件研究所博士研究生. 2017年获得西安电子科技大学学士学位. 主要研究方向为图像标题生成和自然语言处理. E-mail: lianzheng2017@iscas.ac.cn

 

王瑞

中国科学院软件研究所高级工程师. 2012年获得山东大学硕士学位. 主要研究方向为深度强化学习和多媒体技术. E-mail: wangrui@iscas.ac.cn

 

李海昌

中国科学院软件研究所副教授. 2016年获得中国科学院自动化研究所博士学位. 主要研究方向为计算机视觉和遥感技术. E-mail: haichang@iscas.ac.cn

 

姚辉

中国科学院软件研究所网络工程师. 1997年获得中国人民解放军装备指挥技术学院学士学位. 主要研究方向为智能信息处理和网络工程. E-mail: iscasyh@sina.com

 

胡晓惠

中国科学院软件研究所教授. 2003年获得北京航空航天大学博士学位. 主要研究方向为大数据分析和协同多智能体系统. 本文通信作者.E-mail: hxh@iscas.ac.cn



https://blog.sciencenet.cn/blog-3291369-1404562.html

上一篇:简单无向图的同构判定方法
下一篇:基于外环速度补偿的封闭机器人确定学习控制
收藏 IP: 222.131.243.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-25 01:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部