|
引用本文
刘小波, 肖肖, 王凌, 蔡之华, 龚鑫, 郑可心. 基于无锚框的目标检测方法及其在复杂场景下的应用进展. 自动化学报, 2023, 49(7): 1369−1392 doi: 10.16383/j.aas.c220115
Liu Xiao-Bo, Xiao Xiao, Wang Ling, Cai Zhi-Hua, Gong Xin, Zheng Ke-Xin. Anchor-free based object detection methods and its application progress in complex scenes. Acta Automatica Sinica, 2023, 49(7): 1369−1392 doi: 10.16383/j.aas.c220115
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220115
关键词
无锚框,关键点,中心点,Transformer,复杂场景,目标检测
摘要
基于深度学习的目标检测方法是目前计算机视觉领域的热点, 在目标识别、跟踪等领域发挥了重要的作用. 随着研究的深入开展, 基于深度学习的目标检测方法主要分为有锚框的目标检测方法和无锚框的目标检测方法, 其中无锚框的目标检测方法无需预定义大量锚框, 具有更低的模型复杂度和更稳定的检测性能, 是目前目标检测领域中较前沿的方法. 在调研国内外相关文献的基础上, 梳理基于无锚框的目标检测方法及各场景下的常用数据集, 根据样本分配方式不同, 分别从基于关键点组合、中心点回归、Transformer、锚框和无锚框融合等4个方面进行整体结构分析和总结, 并结合COCO (Common objects in context)数据集上的性能指标进一步对比. 在此基础上, 介绍了无锚框目标检测方法在重叠目标、小目标和旋转目标等复杂场景情况下的应用, 聚焦目标遮挡、尺寸过小和角度多等关键问题, 综述现有方法的优缺点及难点. 最后对无锚框目标检测方法中仍存在的问题进行总结并对未来发展的应用趋势进行展望.
文章导读
深度学习方法在目标检测领域具有优秀的性能, 在视频监控、智能交通等领域得到了广泛应用[1]. 基于深度学习的目标检测方法在海量数据的驱动下, 能通过特征提取网络学习到具有更强语义表征能力的特征, 同时在神经网络前向传播过程中避免了大量窗口的冗余计算, 提升整体的检测速度的同时, 检测精度也得到大幅度的提升. 其中, 基于深度学习的目标检测方法根据样本选择方式可分为: 基于锚框的目标检测方法和基于无锚框的目标检测方法.
基于锚框的目标检测方法首先对每个像素点预设不同尺度和宽高比的锚框; 其次使用特征提取网络来获取特征并生成特征图; 然后利用检测头(Head)模块选择包含待测目标的锚框并计算目标类别置信度, 利用位置损失和类别损失分别修正锚框的具体位置和类别; 最后利用非极大值抑制(Non-maximum suppression, NMS)[2]筛选同一目标的冗余锚框, 实现最终的检测任务. 其中, 在训练阶段, 常设置1:1、1:2和2:1等比例的锚框宽高比, 并且常通过实验经验、K-means聚类等方法选择锚框尺寸, 用以适配不同目标. 但由于预设锚框无法有效匹配小目标、宽高比例较大的目标, 因此常根据特征金字塔来合理分配预设锚框, 以提高检测的有效性和灵活性. 此外, 通过计算锚框和真实框的交并比(Intersection-over-union, IoU)来选择正负样本, 即将大于IoU阈值的锚框作为正样本, 剩余为负样本. 在损失函数设计部分, 常使用${\rm{L_{1}}}$损失、${\rm{Smooth}}\ {\rm{L_{1}}}$损失作为回归损失, 用于回归锚框中心点坐标以及宽高参数, 并且利用交叉熵损失或者焦点损失(Focal loss)来预测锚框类别的分类得分. 此外, 在预测阶段, 计算每层特征金字塔的分类得分和位置回归偏置值, 在对所有层的输出分类按类别进行排序后, 将得分最高的部分锚框进行位置回归, 最后利用非极大值抑制处理来得到最后的检测结果. 其中, 具有代表性的有锚框检测算法是SSD (Single shot MultiBox detector)[3]、R-CNN (Region based convolutional neural network)[4-5]、YOLO (You only look once) v2[6]和YOLO v3[7]等算法, 这类算法在标准目标检测数据集上取得了较好的效果, 推动目标检测的新发展, 广泛应用于人脸识别、车牌识别、交通路况检测、农业病虫害监测、海洋救援等领域[8]. 但由于此类检测方法对锚框依赖性较强, 从而导致以下问题:
1) 锚框的设计需要尺度、特征和类别等先验信息, 而固定锚框尺寸、锚框预测宽高比和锚框数量在一定程度上影响检测网络的普适性;
2) 锚框的设置方法需引入大量冗余超参数, 网络调节过程更加困难, 且训练时需使用IoU计算锚框与真实框匹配程度, 整体计算资源消耗较大;
3) 为了尽可能地精准匹配目标, 需要预设数量繁多的锚框, 而其中大部分锚框为仅含背景信息的负样本, 只有少量为包含目标信息的正样本, 因此会加剧目标检测存在的正负样本失衡问题.
针对有锚框检测方法的缺陷, Huang等[9]率先提出一种无锚框目标检测方法DenseBox. 该方法无需锚框预设过程, 直接预测目标的边界框, 不仅减少了大量锚框相关超参数, 而且提升了整体模型的检测效率、降低模型复杂度, 在无人驾驶、交通指挥以及国土安全等领域得到广泛应用. 图1和图2分别表示有锚框和无锚框目标检测方法的整体框架, 两类方法的不同之处在于是否定义先验锚框来提取候选预测框.
图 1 基于锚框的目标检测方法整体框架
图 2 基于无锚框的目标检测方法整体框架
除了目标检测算法外, 数据集也是目标检测发展的重要基石. 公共数据集能有效地对不同算法进行横向比较, 极大地促进了目标检测算法的发展, 近年涌现一批目标检测公共数据集, 具体统计特征如表1所示. 其中Pascal VOC (Pattern analysis statistical modeling and computational learing visual object classes)[10]、COCO[11]数据集专用于评价通用水平框检测模型的性能; DOTA (Dataset for object detection in aerial images)[12]有针对性地检测高分辨率复杂图像中飞机、船舰等分布不均、角度多变的多类目标, 且同时使用水平框和旋转框, 其中目标方向多变、尺度变化范围大, 是目前使用最广、挑战性最强的数据集之一; 此外, UCAS-AOD[13]包含汽车和飞机两类目标; ICDAR2015[14]针对场景文本数据进行归纳; CUHK-SYSU[15]、PRW[16]、CrowdHuman[17]等数据集专用于行人检测, 其中CrowdHuman数据集拥有规模庞大的行人数据, 是评价行人检测效果的代表性数据集之一; 在遥感船舰目标检测方面, HRSC2016[18]、SSDD[19]、HRSID[20]对多源船舰数据进行整理, 对复杂遥感船舰目标检测性能的提升发挥了至关重要的作用.
本文首先围绕样本标签分配方式来展开无锚框目标检测算法的分类; 其次关注近期无锚框目标检测算法的发展, 探索无锚框算法和有锚框算法的本质区别, 在主流数据集上对比典型算法的性能表现; 然后讨论和研究基于无锚框的目标检测方法在目标重叠排列、目标尺寸小和目标角度多等情形下的算法设计与应用; 最后对无锚框目标检测方法进行总结并展望未来的研究方向.
图 3 基于角点组合的CornerNet目标检测方法
本文简要回顾和介绍了基于锚框的目标检测方法整体流程和问题, 系统地对比了现有基于无锚框的目标检测方法, 并针对密集目标、小目标、旋转目标的检测任务, 总结目前的研究现状. 虽然硬件条件不断完善, 但是随着图像分辨率的提高, 数据量逐渐增大, 对目标检测也提出新的挑战. 例如在实际应用中, 目标检测面临的样本数量少、背景复杂等检测问题. 因此, 在后续的研究中应考虑以下几个研究方向:
1)由于目标检测算法通常依赖于大量高质量标注的图像数据集, 而标注过程复杂且效率较低, 现常用样本生成方法来扩充样本数量. 然而该方法本质上是数据增强操作, 无法从根本上解决数据匮乏的问题. 因此使用弱监督目标检测技术, 通过对部分标注的数据集进行小样本训练, 使用生成对抗网络来扩充数据集是后续的重要研究方向.
2)图像数据在获取过程中会受到气候、光照等因素的影响, 现已有图像去雾去噪、多尺度感知等方法来生成清晰且无颜色失真的图像, 但实际场景下仍会造成图像细节丢失、目标边缘模糊等问题. 如何更好地实现复杂多变场景下的目标检测, 是后续研究的重要发展方向.
3)由于图像中存在多类不同尺寸的目标, 且提升多种尺度目标的检测精确度有一定挑战, 现有方法利用多尺度信息提取多样的目标特征, 但是多尺度检测方法仅对目标的尺寸进行区分, 并未关注目标类别和尺寸间的相关性. 现已将文本检测的Transformer结构引入至目标检测任务, 即通过对输入图像的切片化处理, 不断聚焦目标局部特征信息的提取并加强特征的联系. 在后续研究中应考虑将其他视觉任务扩展至目标检测领域, 以自适应的方式提高不同输入图像尺寸、目标尺寸的检测性能, 并获得泛化能力更强的模型.
4)针对图像中目标密集排列、重叠摆放所导致预测框定位困难的问题, 现存的解决方案SCRDet[111]等算法利用倾斜框替代水平框, 使预测框包含更多目标像素点, 但是未从根本上解决密集目标边界特征提取难的问题. 未来可以将目标检测与图像分割任务相结合, 先对密集目标进行分割, 再利用分割后的目标完成特征提取和检测.
5)现有的目标检测算法通常针对单张图像进行目标检测, 忽略了视频帧之间的相关性. 而高清视频中的实时目标检测/跟踪对于视频监控和自动驾驶具有重要意义, 现已有MOT[112]、FairMOT[113]等算法来实现多目标跟踪任务, 在目标检测基础上实现应用更广泛的视频跟踪任务. 因此未来应继续探索视频帧序列之间的空间、时间相关性, 以进一步改善检测性能并扩大应用范围.
6)现存目标检测方法检测速度较慢, 为了能够在移动设备上获得流畅的运行结果, 通常会投入大量资金来购买算力更高的设备去加速算法检测过程, 这在一定程度上阻碍了各类检测算法的落地进程. MobileNet[114]、ShuffleNet[115]和Pelee[116]等轻量化网络简化网络结构并降低算力要求, 提供了移动端的目标检测的坚实基础, 为在轻量设备上检测目标提供可能性. 因此, 研究轻量快速且高精度的无锚框目标检测方法是未来必不可少的一个发展趋势.
作者简介
刘小波
中国地质大学 (武汉) 自动化学院副教授. 2008年获得中国地质大学(武汉)计算机学院计算机软件与理论硕士学位. 2012年获得中国地质大学(武汉)计算机学院地学信息工程博士学位. 主要研究方向为机器学习, 演化计算和高光谱遥感图像处理. 本文通信作者. E-mail: xbliu@cug.edu.cn
肖肖
中国地质大学 (武汉) 自动化学院硕士研究生. 2020年获得江汉大学物理与信息工程学院学士学位. 主要研究方向为遥感图像处理, 目标检测. E-mail: xxiao@cug.edu.cn
王凌
清华大学自动化系教授. 1995年获得清华大学自动化系学士学位. 1999年获得清华大学自动化系控制理论与控制工程专业博士学位. 主要研究方向为智能优化理论、方法与应用, 复杂生产过程建模、优化与调度. E-mail: wangling@tsinghua.edu.cn
蔡之华
中国地质大学 (武汉) 计算机学院教授. 1986年获得武汉大学学士学位. 1992年获得北京工业大学硕士学位. 2003年获得中国地质大学(武汉) 博士学位. 主要研究方向为数据挖掘, 机器学习和演化计算. E-mail: zhcai@cug.edu.cn
龚鑫
中国地质大学 (武汉) 自动化学院硕士研究生. 2020年获得江汉大学物理与信息工程学院学士学位. 主要研究方向为遥感图像处理, 架构搜索. E-mail: xgong@cug.edu.cn
郑可心
中国地质大学(武汉)自动化学院硕士研究生. 2019年获得长江大学物理与光电工程学院学士学位. 主要研究方向为遥感图像处理. E-mail: zhengkexin@cug.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-1 19:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社