|
引用本文
李阳, 王璞, 刘扬, 刘国军, 王春宇, 刘晓燕, 郭茂祖. 基于显著图的弱监督实时目标检测. 自动化学报, 2020, 46(2): 242−255 doi: 10.16383/j.aas.c180789
Li Yang, Wang Pu, Liu Yang, Liu Guo-Jun, Wang Chun-Yu, Liu Xiao-Yan, Guo Mao-Zu. Weakly supervised real-time object detection based on saliency map. Acta Automatica Sinica, 2020, 46(2): 242−255 doi: 10.16383/j.aas.c180789
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180789
关键词
弱监督,实时目标检测,显著图,伪标注,深度卷积神经网络
摘要
深度卷积神经网络(Deep convolutional neural network, DCNN)在目标检测任务上使用目标的全标注来训练网络参数, 其检测准确率也得到了大幅度的提升. 然而, 获取目标的边界框(Bounding-box)标注是一项耗时且代价高的工作. 此外, 目标检测的实时性是制约其实用性的另一个重要问题. 为了克服这两个问题, 本文提出一种基于图像级标注的弱监督实时目标检测方法. 该方法分为三个子模块: 1)首先应用分类网络和反向传递过程生成类别显著图, 该显著图提供了目标在图像中的位置信息; 2)根据类别显著图生成目标的伪标注(Pseudo-bounding-box); 3)最后将伪标注看作真实标注并优化实时目标检测网络的参数. 不同于其他弱监督目标检测方法, 本文方法无需目标候选集合获取过程, 并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果, 因此极大地加快了检测的速率(实时性). 此外, 该方法简单易用; 针对未知类别的目标检测, 只需要训练目标类别的分类网络和检测网络. 因此本框架具有较强的泛化能力, 为解决弱监督实时检测问题提供了新的研究思路. 在PASCAL VOC 2007数据集上的实验表明: 1)本文方法在检测的准确率上取得了较好的提升; 2)实现了弱监督条件下的实时检测.
文章导读
近年来, 深度卷积神经网络(Deep convolutional neural network, DCNN)在图像目标检测任务中取得了突破性的进展并成为主流的模型架构. 图像目标检测的性能在DCNN的帮助下取得了很大的提升[1-6].
目标检测方法需要目标的边界框(Bounding-box)标注及相对应的类别注释来优化神经网络的参数. 这种全监督方法的主要问题是获取大量的精确的标注极为耗时并且成本昂贵. 因此, 尽管这些方法能够获取非常准确的检测结果, 但是需要耗费大量的人力及时间资源, 因而其适用性受到一定限制. 为了解决这个问题, 研究者们尝试放宽图像标注的程度, 仅使用图像级标注(Image-level annotations)来训练模型, 并提出了一系列弱监督目标检测方法[7-14].
虽然弱监督目标检测方法具有图像级标注, 但是在缺少目标位置信息的情况下, 该方法使得目标检测成为极具挑战性的问题. 近年来, 很多研究工作致力于从图像级标注中学习到复杂的语义信 息[10, 12-14]. 一些早期的方法采用多示例学习(Multiple instance learning, MIL)[5, 8, 11], 在模型优化和正例选择之间迭代计算. 另一些方法通过DCNN[15-16]学习有效的特征表示[10, 17], 并提出构建两个子模块网络(目标定位和目标挖掘模块)来提升检测的准确率[12, 14]. 此外, 有的方法充分发挥MIL与DCNN模型的特性, 通过融合MIL网络与示例分类优化网络来构造目标检测网络[13]. 还有一些方法在DCNN基础上引入了有利于检测的先验信息, 如目标尺寸[8]、上下文信息[18]、位置线索[9, 19]、目标区域候选集[12-13]等. 这些方法的实验结果表明:融合目标位置信息的方法比其他方法得到更精确的检测结果[10]. 因此, 受上述方法的启发, 本文提出一种通过构建目标位置的伪标注(Pseudo-bounding-box)来训练检测网络的方法. 所谓伪标注, 是针对目标的真实标注(Ground-truth)而言, 而目标的真实标注在弱监督设定下是无法获取的. 因此如何获取高质量的伪标注, 使得该伪标注能够较为准确地给出目标的位置信息并优化目标检测网络是本文的研究重点之一. 受分类网络可以给出一些目标位置线索的启发[19-20], 一些弱监督语义分割方法[21-22]借助这些位置线索提升了分割的准确率. Shimoda等[23]提出基于分类网络和改进后的反向传递过程生成类别显著图的方法, 这些类别显著图提供了目标位置的可靠信息, 并在语义分割中得到较好的分割结果. 但是文献[23]的方法并不能实现实时的目标检测任务. 受该方法启发, 本文将类别显著图应用到目标检测任务中, 通过构建高质量的伪标注来训练实时的目标检测器.
目标检测任务中, 检测准确率和检测速度是两个重要的评价指标. 为了提升检测速度, 一些研究者提出快速目标检测方法[1-2, 4, 23-25], 但是这些方法需要精确的标注来训练模型的参数, 在弱监督的设定下还不能够实现实时检测. 本文借鉴文献[3]的方法, 提出弱监督条件下的实时目标检测模型, 对于测试图像, 仅通过网络的前向传递过程即可以获取检测结果, 而节省了其他预处理/后处理的计算时间. 总体来讲, 本文为了提升检测准确率采用分类网络获取目标的位置线索, 并构建伪标注信息来训练一个实时检测器, 从而提升了检测速度, 提出的方法具有以下创新点:
1) 为获取目标在图像中的位置线索, 本文利用分类网络生成类别显著图, 并根据该显著图生成目标的伪标注;
2) 利用伪标注优化实时目标检测网络, 该实时检测网络在提升检测速度的同时, 无需目标候选集合的生成过程;
3) 本文所提方法实现了弱监督条件下的实时目标检测任务;
4) 该模型简单易用, 具有一定的泛化能力, 并为弱监督实时目标检测问题提供了新的研究思路.
实验结果表明, 本文所提方法在PASCAL VOC 2007数据集上不仅具有优秀的检测准确率, 而且实现了目标检测的实时性.
图 1 弱监督实时目标检测方法结构图
图 2 类别显著图
图 3 二值化类别显著图以及相应的伪标注
本文提出一种弱监督实时目标检测方法, 该方法首先利用分类网络的反向传递过程生成类别显著图, 再利用类别显著图生成目标的伪标注, 最后将伪标注作为真实标注训练实时检测网络. 通过实验分析表明, 该方法在PASCAL VOC数据集上比目前最先进的弱监督方法在检测准确率上获得了明显提升, 并且可以实现实时检测的目标.
我们的方法实现了弱监督条件下的实时目标检测任务, 模型简单易用, 具有一定的泛化能力. 从实验中我们发现, 伪标注的好坏将直接影响最后的检测性能, 因此如何提升伪标注的准确性是进一步提升实时检测性能的关键所在. 本方法提供了在弱监督条件下, 实现实时目标检测的一个可行的方案, 而且这个方案具有很大的提升空间. 因此本文为解决弱监督实时目标检测问题提供了新的研究思路.
我们下一步的研究计划是根据从失败的实验案例中获取的启发, 尝试构建更合理有效的伪标注, 并融合类别之间的关联性, 进一步优化弱监督目标检测网络结构, 提升检测的性能.
作者简介
李阳
哈尔滨工业大学计算机科学与技术学院博士研究生. 2013年获得哈尔滨工业大学计算机科学与技术学院硕士学位. 主要研究方向为计算机视觉与机器学习. E-mail: liyang13@hit.edu.cn
王璞
2018年获得哈尔滨工业大学计算机科学与技术学院硕士学位. 主要研究方向为计算机视觉与机器学习. E-mail: wangpu@hit.edu.cn
刘扬
博士, 哈尔滨工业大学计算机科学与技术学院副教授. 主要研究方向为机器学习, 图像处理与计算机视觉. 本文通信作者. E-mail: yliu76@hit.edu.cn
刘国军
博士, 哈尔滨工业大学计算机科学与技术学院副教授. 主要研究方向为计算机视觉, 图像处理与模式识别. E-mail: hitliu@hie.edu.cn
王春宇
博士, 哈尔滨工业大学计算机科学与技术学院副教授. 主要研究方向为机器学习与计算生物学. E-mail: chunyu@hit.edu.cn
刘晓燕
博士, 哈尔滨工业大学计算机科学与技术学院副教授. 主要研究方向为机器学习与计算生物学. E-mail: liuxiaoyan@hit.edu.cn
郭茂祖
博士, 北京建筑大学电气与信息工程学院教授. 主要研究方向为机器学习, 数据挖掘, 生物信息学与计算机视觉. E-mail: guomaozu@bucea.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-30 03:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社