|
引用本文
张兴园, 黄雅平, 邹琪, 裴艳婷. 基于草图纹理和形状特征融合的草图识别. 自动化学报, 2022, 48(9): 2223−2232 doi: 10.16383/j.aas.c200070
Zhang Xing-Yuan, Huang Ya-Ping, Zou Qi, Pei Yan-Ting. Texture and shape feature fusion based sketch recognition. Acta Automatica Sinica, 2022, 48(9): 2223−2232 doi: 10.16383/j.aas.c200070
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200070
关键词
草图分类,注意力机制,互学习策略,图像识别
摘要
人类具有很强的草图识别能力. 然而, 由于草图具有稀疏性和缺少细节的特点, 目前的深度学习模型在草图分类任务上仍然面临挑战. 目前的工作只是将草图看作灰度图像而忽略了不同草图类别间的形状表示差异. 提出一种端到端的手绘草图识别模型, 简称双模型融合网络, 它可以通过相互学习策略获取草图的纹理和形状信息. 具体地, 该模型由2个分支组成: 一个分支能够从图像表示(即原始草图)中自动提取纹理特征, 另一个分支能够从图形表示(即基于点的草图)中自动提取形状特征. 此外, 提出视觉注意一致性损失来度量2个分支之间视觉显著图的一致性, 这样可以保证2个分支关注相同的判别性区域. 最终将分类损失、类别一致性损失和视觉注意一致性损失结合完成双模型融合网络的优化. 在两个具有挑战性的数据集TU-Berlin数据集和Sketchy数据集上进行草图分类实验, 评估结果说明了双模型融合网络显著优于基准方法并达到最佳性能.
文章导读
随着数字设备手机、平板和绘图板的迅速发展, 手绘草图正在成为直观表达用户想法的主要方式之一[1]. 因此, 草图识别在计算机视觉领域蓬勃发展, 其中包括基于草图的图像检索[2], 草图分析[3], 草图分割[4]和基于草图的图像合成[5-6]等.
草图识别的目的是物体类别识别, 该任务相比于图像识别更具有挑战性. 主要原因是图像一般表示为稠密像素[7-8], 但是草图缺乏丰富的颜色细节和视觉线索[9-11], 使得草图特征的表示更加困难. 为此, 近些年来国内外很多研究人员致力于草图识别方面的研究. 早期草图识别主要针对CAD图和艺术画[12]. 受到最新提出的大型数据集启发[13], Schneider等[14]提出了一系列基于手工特征的草图识别方法. 这些方法将草图看作自然图像并利用方向梯度直方图[15]和尺度不变特征变换[16]提取草图特征, 再利用支持向量机(Support vector machine, SVM)[17]分类器对草图类别进行预测[18]. 然而, 上述方法普遍存在的问题是浅层特征不能充分表达草图. 因此, Yu等[18]提出了Sketch-a-Net网络, 这是第1个使用深度学习的草图识别网络, 通过参数学习方式代替手工设计策略提高分类性能. 受到上述研究工作启发[19-31]设计了新的深度学习框架, 使得草图识别的性能首次超过了人类. 近期基于循环神经网络提取草图特征的工作[23−31], 除了考虑草图内在结构还加入了笔画的时序序列, 即考虑草图的笔画顺序来提取草图特征, 由此进一步提升了草图识别性能.
然而, 大多数深度卷积神经网络模型将草图视为自然图像来获得具有判别力的纹理特征, 而没有考虑草图本身所具有的形状信息. 具体来说, 草图在二维空间中以曲线的形式进行信息传递[24], 因此草图具备很好地描述物体几何形状的特性. 但由于不同人绘画技巧和绘制风格的差异, 对同一物体进行描述的草图形状会千差万别, 而传统的特征描述子并不能很好的描述类间和类内的形状差异性. 本文工作的目标是寻找一种更有效的方法来将草图形状信息融合到端到端的神经网络中, 从而使得深度学习网络具有更好的草图识别效果. 为此, 本文提出了一种新颖的基于双分支互学习的深度学习网络, 即双模型融合网络(Dual-model fusion network, DMF-Net), 以此实现草图纹理信息和形状信息的结合来进行草图识别. 在训练阶段, 第1个网络分支输入原始草图, 并使用传统的卷积神经网络提取纹理信息; 第2个分支输入草图的采样点集合, 并使用基于图卷积神经网络提取形状信息; 2个网络使用互引导机制实现联合训练. 测试阶段将训练好的网络分别提取不同特征并将其融合, 然后输入分类器实现最终草图的类别预测.
在提出的双分支融合网络中, 基于损失函数互引导机制实现的相互学习主要由2部分组成: 1)网络的每个分支使用传统的监督分类损失和基于另一个分支分类概率作为后验的模仿损失. 为此使用2个概率分布的Kullback-Leibler (KL)距离作为类别一致性损失; 2)网络基于视觉显著图的一致性计算损失. 显然, 当草图使用两种不同的形式进行表示时, 视觉显著图的区域应该相同或相近, 因此网络将视觉一致性定义为原始草图的显著图和基于点表示草图的显著图之间的欧氏距离. 最后, 将分类损失、类别一致性损失和视觉注意一致性损失结合完成网络参数的训练.
本文主要贡献有: 1)针对草图识别问题, 首次提出用新的双模型融合网络来提取草图的纹理信息和形状信息; 2)针对双分支网络的互学习问题, 提出了利用视觉注意一致性损失、分类损失和类别一致性损失联合训练的策略; 3)在Sketchy数据集和TU-Berlin数据集上进行了实验验证. 实验结果表明, 本文提出的模型在草图分类任务上取得了最好的效果.
本文结构安排如下: 第1节详细阐述了基于双分支网络的草图识别算法; 第2节阐述了网络的训练和测试细节; 第3节通过与已有算法在公开数据集上进行定性和定量比较, 实现了对本文提出方法有效性的验证; 第4节总结本文所研究的工作并提出下一步的研究方向.
图1 本文算法总体框架图
图2 本文形状特征提取网络的原理框架示意图
图3 TU-Berlin数据集上6个类别的受试者工作特征曲线及曲线下面积值
本文提出了一种基于双分支神经网络结构, 实现手绘草图识别的任务. 网络引入了视觉显著图来学习具有判别力的草图区域, 同时使用注意力一致性和类别一致性的互学习策略实现模型的优化. 在常用两个数据集的实验结果证明了该模型提取的特征优于传统手工特征, 相比于其他几种算法在草图分类任务上拥有更好的表现, 并且对草图的点采样策略具有鲁棒性. 未来将考虑融合笔画顺序到网络中并使用互学习策略, 实现草图性能的进一步优化.
作者简介
张兴园
北京交通大学计算机与信息技术学院博士研究生. 主要研究方向为深度学习, 数字图像处理和机器学习. E-mail: 15112071@bjtu.edu.cn
黄雅平
北京交通大学计算机与信息技术学院教授. 主要研究方向为机器学习与认知计算, 人工智能及应用和数字图像处理. 本文通信作者.E-mail: yphuang@bjtu.edu.cn
邹琪
北京交通大学计算机与信息技术学院教授. 主要研究方向为计算机视觉, 人工智能及应用和数字图像处理. E-mail: qzou@bjtu.edu.cn
裴艳婷
北京交通大学计算机与信息技术学院讲师. 主要研究方向为计算机视觉, 人工智能及应用和数字图像处理. E-mail: ytpei@bjtu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 22:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社