|
引用本文
王鑫, 宋永红, 张元林. 基于显著性特征提取的图像描述算法. 自动化学报, 2022, 48(3): 735−746. doi: 10.16383/j.aas.c190279 Wang Xin, Song Yong-Hong, Zhang Yuan-Lin. Salient feature extraction mechanism for image captioning. Acta Automatica Sinica, 2022, 48(3): 735−746. doi: 10.16383/j.aas.c190279 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190279?viewType=HTML 文章简介 关键词 图像描述, 显著性特征提取, 语言模型, 编码器, 解码器 摘 要 图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向, 本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction Mechanism, SFEM), 能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测, 有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题. SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分: 全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征, 并整合这些特征到全局显著性视觉向量中; 即时显著性特征提取器能够根据语言模型的需要, 从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征. 本文在MS COCO (Microsoft common objects in context)数据集上对SFEM进行了评估, 实验结果表明SFEM能够显著提升基准模型 (baseline)生成图像描述的准确性, 并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型, 在时间性能上也大幅领先空间注意力模型. 引 言 图像描述 (Image captioning) 是涉及到计算机视觉和自然语言处理这两个领域的一个重要的研究方向, 主要工作是实现图像到文本的多模态转换, 需要计算机能够识别图像上的对象, 理解对象的属性、对象之间的关系, 并用人类的语言表达出图像上的内容. 目前常用于图像描述的编码器-解码器 (Encoder-Decoder)框架最早受启发于机器翻译, NIC (Neural image caption)模型作为第一个使用这个框架的图像描述模型, 以卷积神经网络(Convolutional neural network, CNN) 作为编码器来提取图像上的视觉信息, 得到一个包含有整幅图像上视觉信息的全局视觉向量, 以单层的长短期记忆网络(Long-short term memory, LSTM)作为解码器, 在生成图像描述的初始时刻将全局视觉向量输入LSTM网络中, 之后逐步生成图像描述中的每个单词. 文献[11]中提出了g-LSTM (Guiding LSTM)模型, 它与NIC模型最大的不同在于, 不仅将全局视觉向量作为LSTM网络的输入, 也将全局视觉向量用来构建LSTM网络的各个门, 作者尝试以这种方法来引导LSTM生成更加贴合于图像内容的描述. 文献[12]中使用多标签分类的方法, 对图像进行多标签分类, 从而将图像上的多个高层属性编码进一个0-1向量中, 该向量的每一维都对应属性库中的一个属性, 如果图像上具有该属性, 向量对应维度的值取1否则取0, 作者使用该向量代替编码器给出的全局视觉向量, 取得了比较好的效果. 虽然这几种编码器−解码器模型都取得了不错的效果, 但存在两个主要的问题: 1)包含整幅图像视觉信息的全局视觉向量在初始时刻被输入解码器中, 解码器需要自己从中抽取预测单词所需的视觉信息, 造成解码器负担过重. 2)作为解码器的LSTM网络在预测每个单词时都会接收新的输入并遗忘掉现有的部分信息, 这就造成了随着预测的进行一些重要的视觉信息会被遗忘掉, 从而导致语言模型预测出的单词逐渐缺乏图像上视觉信息的指导, 偏离了图像的真实内容. 在编码器−解码器框架的基础上, 相继提出了多种注意力模型. 文献[16]中最早将空间注意力机制引入到图像描述领域, 在预测单词时空间注意力模型能够根据LSTM的隐含层状态来为每个局部视觉向量分配不同的权重, 然后通过加权求和得到当前单词所需的视觉向量. 空间注意力模型与编码器−解码器模型的结合, 一定程度上解决了编码器−解码器模型的上述两个问题. 但是同时也产生了3个新的问题: 1)在空间注意力模型中, 每个局部视觉向量只对应一个标量权重, 所以特征向量的每一维都需要乘以相同的权重, 空间注意力的这种操作相当于认为同一个图像区域中所有视觉特征具有同等重要性, 但实际情况并不是这样, 所以本文认为空间注意力模型对特征的选择是不准确的. 2)空间注意力模型对局部视觉向量上视觉特征的选择是强制性的, 解码器在预测每个单词时, 空间注意模型都要求局部视觉向量权重之和为1, 这就造成了局部视觉向量上没有解码器需要的视觉特征时, 空间注意力模型也会向解码器中输入视觉特征, 这些视觉特征就如同噪声一般, 会干扰解码器对单词的预测. 3)空间注意力模型是一种自顶向下的注意力模型, 对于生成一个长度为nn的句子, 空间注意力模块需要被执行nn次, 并且每次执行空间注意力模块时所有的局部视觉向量都需要参与运算, 这无疑大大限制了模型的时间性能. 针对空间注意力模型存在的第2个问题, 文献[17]提出了自适应注意力机制(Adaptive attention), 这种方法在局部视觉向量集合中添加一个编码有已生成单词序列语义信息的向量, 当局部视觉向量上没有解码器需要的视觉信息时, 该语义向量所对应的权重就会接近于1, 从而可防止空间注意力模型强制向解码器中输入视觉特征. 但是自适应注意力机制没能解决第1个问题和第3个问题, 而且增加了空间注意力模型的参数量和计算复杂度. 文献[18]提出的SCA-CNN (Spatial and channel-wise attention in CNN)一定程度上对空间注意力模型的第1个问题做出了改进, 它的通道级注意力模型能够为编码器输出特征图的每一个通道赋予一个权重, 与空间注意力模型结合在一起既实现了对空间位置的选择也实现了对通道的选择. 但是通道级注意力模型本质上只能为特征图的每个通道计算一个权重, 这种对通道的筛选仍然不灵活、不充分, 并没有完全解决第1个问题. 另外SCA-CNN没有考虑解决第2个问题和第3个问题, 相反的通道级注意力模型同样作为一个自顶向下的注意力模型, 在空间注意力模型的基础上进一步增加了模型的参数量和计算复杂度. 图 1 本文网络模型 作者简介 王 鑫 西安交通大学软件学院硕士研究生. 主要研究方向为图像内容描述. E-mail: 18991371026@163.com 宋永红 西安交通大学人工智能学院研究员. 主要研究方向为图像与视频内容理解、智能软件开发. 本文通信作者. E-mail: songyh@xjtu.edu.cn 张元林 西安交通大学人工智能学院副教授. 主要研究方向为计算机视觉及机器学习. E-mail: ylzhangxian@xjtu.edu.cn 相关文章 [1] 崔琳琳, 沈冰冰, 葛志强. 基于混合变分自编码器回归模型的软测量建模方法. 自动化学报, 2022, 48(2): 398-407. doi: 10.16383/j.aas.c210035 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210035?viewType=HTML [2] 陈晓云, 陈媛. 子空间结构保持的多层极限学习机自编码器. 自动化学报. doi: 10.16383/j.aas.c200684 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200684?viewType=HTML [3] 刘国梁, 余建波. 基于堆叠降噪自编码器的神经-符号模型及在晶圆表面缺陷识别. 自动化学报. doi: 10.16383/j.aas.c190857 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190857?viewType=HTML [4] 王松涛, 周真, 靳薇, 曲寒冰. 基于贝叶斯框架融合的RGB-D图像显著性检测. 自动化学报, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170232?viewType=HTML [8] 张雪松, 庄严, 闫飞, 王伟. 基于迁移学习的类别级物体识别与检测研究与进展. 自动化学报, 2019, 45(7): 1224-1243. doi: 10.16383/j.aas.c180093 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180093?viewType=HTML [5] 于明, 李博昭, 于洋, 刘依. 基于多图流形排序的图像显著性检测. 自动化学报, 2019, 45(3): 577-592. doi: 10.16383/j.aas.2018.c170441 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170441?viewType=HTML [15] 侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530-539. doi: 10.16383/j.aas.c170617 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170617?viewType=HTML [6] 张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891-900. doi: 10.16383/j.aas.2018.c170464 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170464?viewType=HTML [7] 汤鹏杰, 王瀚漓, 许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述. 自动化学报, 2018, 44(7): 1237-1249. doi: 10.16383/j.aas.2017.c160733 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160733?viewType=HTML [14] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150682?viewType=HTML [8] 许允喜, 陈方. 特征联合和旋转不变空间分割联合的局部图像描述符. 自动化学报, 2016, 42(4): 617-630. doi: 10.16383/j.aas.2016.c150206 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150206?viewType=HTML [9] 杨赛, 赵春霞, 徐威. 一种基于词袋模型的新的显著性目标检测方法. 自动化学报, 2016, 42(8): 1259-1273. doi: 10.16383/j.aas.2016.c150387 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150387?viewType=HTML [10] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取. 自动化学报, 2016, 42(7): 1014-1021. doi: 10.16383/j.aas.2016.c150736 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150736?viewType=HTML [11] 钱生, 陈宗海, 林名强, 张陈斌. 基于条件随机场和图像分割的显著性检测. 自动化学报, 2015, 41(4): 711-724. doi: 10.16383/j.aas.2015.c140328 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140328?viewType=HTML [12] 何楚, 尹莎, 许连玉, 廖紫纤. 基于局部重要性采样的SAR图像纹理特征提取方法. 自动化学报, 2014, 40(2): 316-326. doi: 10.3724/SP.J.1004.2014.00316 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00316?viewType=HTML [13] 司玉景, 肖业鸣, 徐及, 潘接林, 颜永红. 面向口语统计语言模型建模的自动语料生成算法. 自动化学报, 2014, 40(12): 2808-2814. doi: 10.3724/SP.J.1004.2014.02808 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02808?viewType=HTML [14] 唐勇, 杨林, 段亮亮. 基于图像单元对比度与统计特性的显著性检测. 自动化学报, 2013, 39(10): 1632-1641. doi: 10.3724/SP.J.1004.2013.01632 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.01632?viewType=HTML [15] 郭迎春, 袁浩杰, 吴鹏. 基于Local特征和Regional特征的图像显著性检测. 自动化学报, 2013, 39(8): 1214-1224. doi: 10.3724/SP.J.1004.2013.01214 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.01214?viewType=HTML [16] 曾慧, 穆志纯, 王秀青. 一种鲁棒的图像局部特征区域的描述方法. 自动化学报, 2011, 37(6): 658-664. doi: 10.3724/SP.J.1004.2011.00658 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00658?viewType=HTML [17] 刘嘉敏, 谢海军, 刘强, 朱晟君, 张威. 基于改进小波矩特征的快速无损图像描述算法. 自动化学报, 2009, 35(10): 1278-1282. doi: 10.3724/SP.J.1004.2009.01278 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01278?viewType=HTML [18] 徐小明, 杨丹, 张小洪, 周小龙. 基于局部不变映射的特征描述器算法. 自动化学报, 2008, 34(9): 1174-1177. doi: 10.3724/SP.J.1004.2008.01174 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.01174?viewType=HTML [19] 张楠, 吕岩, 吴枫, 尹宝才. 基于方向提升小波变换的多描述图像编码. 自动化学报, 2007, 33(6): 567-576. doi: 10.1360/aas-007-0567 http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0567?viewType=HTML [20] 李海通. 小值轴角编码器. 自动化学报, 1981, 7(2): 131-137. http://www.aas.net.cn/cn/article/id/15437?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 09:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社