|
引用本文
赵兴科, 李明磊, 张弓, 黎宁, 李家松. 基于显著图融合的无人机载热红外图像目标检测方法. 自动化学报, 2021, 47(9): 2120−2131 doi: 10.16383/j.aas.c200021
Zhao Xing-Ke, Li Ming-lei, Zhang Gong, Li Ning, Li Jia-Song. Object detection method based on saliency map fusion for UAV-borne thermal images. Acta Automatica Sinica, 2021, 47(9): 2120−2131 doi: 10.16383/j.aas.c200021
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200021
关键词
显著图,无人机,热红外图像,目标检测,YOLOv3-MobileNetv2
摘要
利用无人机载的热红外图像开展行人及车辆检测, 在交通监控、智能安防、防灾应急等领域中, 具有巨大的应用潜力. 热红外图像能够在夜间或者光照条件不理想的情况对场景目标清晰成像, 但也往往存在对比度低、纹理特征弱的缺点. 为此, 本文提出使用热红外图像的显著图来进行图像增强, 作为目标检测器的注意力机制, 并研究仅使用热红外图像和其显著图提高目标检测性能的方法. 此外, 针对无人机内存不足、算力有限的特点, 设计使用轻量化网络YOLOv3-MobileNetv2作为目标检测模型. 在实验中, 本文训练了YOLOv3网络作为检测的评价基准网络. 使用BASNet生成显著图, 通过通道替换和像素级加权融合两种方案将热红外图像与其对应的显著图进行融合增强, 比较了不同方案下YOLOv3-MobileNetv2模型的检测性能. 统计结果显示, 行人及车辆的平均精确度(Average precision, AP)相对于基准分别提升了6.7%和5.7%, 同时检测速度提升了60%, 模型大小降低了58%. 该算法模型为开拓无人机载热红外图像的应用领域提供了可靠的技术支撑.
文章导读
近年来, 以无人机(Unmanned aerial vehicles, UAV)为平台的图像获取和处理技术在交通、安防和环保等领域得到快速发展. 彩色图像在理想光照条件下, 对目标检测有很好的效果, 可以较容易地利用深度学习技术找到图像中兴趣目标的具体位置并识别其类别. 然而, 在夜间或缺乏足够光照的情况下, 基于彩色图像的目标检测往往难以达到预期效果, 容易造成漏检或误检. 红外相机非常适合在这种条件下成像, 因为它们能感应到目标物发出的辐射且不受光照条件的限制. 面向行人和车辆检测的需求, 本文研究一种适用于以无人机为平台获取的热红外图像数据智能处理算法.
相比于彩色图像, 热红外图像有着对比度低、纹理特征弱等缺点. 因此, 在彩色图像和热红外图像之间存在明显的互补. 为了开发这种互补的潜力, 相关学者做了大量的工作来构建融合彩色和热红外图像的数据结构[1]. 但是彩色−热红外图像对并不总是可用的, 因为它们实时同步成像的成本很高, 而且数据处理前还需要图像配准准确, 图像错位还会降低检测器的性能. 这些原因促使本文探索只使用热红外图像来进行目标检测的机制. 为了解决热红外图像中目标检测的难题, 本文提出使用显著图来进行图像增强. 文献[2]通过在颜色、方向、运动和深度上与周围环境的不同来定义特定位置的显著性. 在一个场景中寻找显著物体可以理解为一种视觉注意机制, 它突出了给定场景中属于显著物体的像素. 因此, 本文假设显著图和热红外图像结合将帮助提升目标检测模型的性能. 为验证此假设, 首先通过训练一个YOLOv3目标检测模型[3]来建立评价参考基准, 它仅使用制作的热红外图像数据集来检测目标. 然后, 使用BASNet[4]生成显著图融合热红外图像, 在此基础上训练目标检测模型. 此外, 由于深度显著性网络需要对显著性对象进行像素级标注, 因此实验中使用行人及车辆的像素级掩膜对制作的热红外图像数据集进行标注, 以方便对显著性目标检测的研究.
针对无人机平台内存和算力的局限性, 本文设计了YOLOv3-MobileNetv2网络, 利用轻量化网络MobileNetv2[5]替代YOLOv3原有的特征提取网络DarkNet53, 在大量减少网络参数的同时显著提升运行速度. 此外, 使用Focal loss[6]改进YOLOv3原有的损失函数, 解决正负样本不均衡问题, 使得网络专注于困难样本的计算.
本文的主要贡献如下:
1)首次将显著图用于提高无人机视角下的热红外图像目标检测性能, 通过设计不同的融合方案, 深入分析了显著图对热红外图像中行人及车辆目标检测的影响.
2)以轻量化网络YOLOv3-MobileNetv2改进原有模型, 在平均精确度、模型尺寸和检测速度方面取得了很好的平衡, 即在计算资源和存储资源有限的情况下实现了最优的精度, 将卷积神经网络(Convolutional neural network, CNN)[7]更好地应用于无人机场景中.
图 1 BASNet网络结构
图 4 YOLOv3-MobileNetv2网络结构图
图 6 训练集和测试集中行人及车辆的分布
面向行人和车辆两类典型目标, 本文利用无人机平台采集制作热红图像数据集, 并对其进行边界框标注和像素级标注. 利用深度学习的方法, 提取热红外图像的显著图. 将热红外图像与提取的显著图进行结合, 通过通道替换以及像素级加权等多种图像融合方案, 在热红外图像输入目标检测的深度神经网络之前进行图像增强. 融合图像为行人及车辆检测模型提供互补信息, 从而显著提高目标检测的性能. 此外, 通过使用轻量化网络YOLOv3-MobileNetv2替代原先的检测网络, 在保持平均精确度基本不变的前提下, 提升了模型的检测速度, 降低了模型的尺寸, 使其可以更好地应用于无人机场景下的行人及车辆检测.
作者简介
赵兴科
南京航空航天大学电子信息工程学院硕士研究生. 主要研究方向为深度学习与计算机视觉.E-mail: zxk313@nuaa.edu.cn
李明磊
南京航空航天大学电子信息工程学院副教授. 主要研究方向为摄影测量与遥感和计算机视觉. 本文通信作者.E-mail: minglei_li@126.com
张弓
南京航空航天大学电子信息工程学院教授. 中国宇航学会电磁信息专业委员会委员.主要研究方向为雷达信号处理, 目标探测与识别.E-mail: gzhang@nuaa.edu.cn
黎宁
南京航空航天大学电子信息工程学院副教授. 主要研究方向为视频图像处理, 目标检测与跟踪.E-mail: lnee@nuaa.edu.cn
李家松
南京航空航天大学电子信息工程学院硕士研究生. 主要研究方向为计算机视觉与精密工业测量.E-mail: jeasonlee_0@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社