IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种用于目标跟踪边界框回归的光滑IoU损失

已有 1997 次阅读 2023-3-21 12:52 |系统分类:博客资讯

引用本文

 

李功, 赵巍, 刘鹏, 唐降龙. 一种用于目标跟踪边界框回归的光滑IoU损失. 自动化学报, 2023, 49(2): 288−306 doi: 10.16383/j.aas.c210525

Li Gong, Zhao Wei, Liu Peng, Tang Xiang-Long. Smooth-IoU loss for bounding box regression in visual tracking. Acta Automatica Sinica, 2023, 49(2): 288−306 doi: 10.16383/j.aas.c210525

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210525

 

关键词

 

光滑IoU损失,ℓn -norm损失,边界框回归,目标跟踪 

 

摘要

 

边界框回归分支是深度目标跟踪器的关键模块, 其性能直接影响跟踪器的精度. 评价精度的指标之一是交并比(Intersection over union, IoU). 基于IoU的损失函数取代了ℓn-norm损失成为目前主流的边界框回归损失函数, 然而IoU损失函数存在2个固有缺陷: 1)当预测框与真值框不相交时IoU为常量 0, 无法梯度下降更新边界框的参数; 2)IoU取得最优值时其梯度不存在, 边界框很难收敛到 IoU 最优处. 揭示了在回归过程中IoU最优的边界框各参数之间蕴含的定量关系, 指出在边界框中心处于特定位置时存在多种尺寸不同的边界框使IoU损失最优的情况, 这增加了边界框尺寸回归的不确定性. 从优化两个统计分布之间散度的视角看待边界框回归问题, 提出了光滑IoU (Smooth-IoU, SIoU)损失, 即构造了在全局上光滑(即连续可微)且极值唯一的损失函数, 该损失函数自然蕴含边界框各参数之间特定的最优关系, 其唯一取极值的边界框可使IoU达到最优. 光滑性确保了在全局上梯度存在使得边界框更容易回归到极值处, 而极值唯一确保了在全局上可梯度下降更新参数, 从而避开了IoU损失的固有缺陷. 提出的光滑损失可以很容易取代IoU损失集成到现有的深度目标跟踪器上训练边界框回归, LaSOTGOT-10kTrackingNetOTB2015VOT2018测试基准上所取得的结果, 验证了光滑IoU损失的易用性和有效性.

 

文章导读

 

目标跟踪是计算机视觉领域里的基础任务之一. 随着深度学习在各个领域里日益成熟的广泛应用, 基于深度网络的目标跟踪方法[1]取得了显著的提升和进步. 与目标检测方法[2]类似, 边界框预测模块在目标跟踪方法里也是至关重要的一环, 它的性能直接影响目标跟踪模型准确性. 交并比(Intersection over union, IoU)是衡量跟踪准确性的重要评估指标, 定义为 IoU(B˜;B)=|B˜∩B|/|B˜∪B|用来衡量预测的边界框与真值框B的相近程度. 对于两个不同的跟踪器, 即便跟踪器的分类模块都能够定位到目标所在位置, 但边界框预测模块的性能不同仍可能导致预测结果的IoU相差甚远, 所以训练边界框回归准确甚为重要. 从时间发展的顺序上看, 边界框回归方法可分为2: 1类是基于ℓn-norm损失的回归, 可表示为ℓn(B˜;B)=‖B˜−B‖n.其中常用的两种损失ℓ1-normℓ2-norm都有缺陷, 前者难以收敛到更高的精度, 而后者在训练初始时不稳定. 虽然Girshick[3]提出的ℓ1-smooth损失, 可以较好地解决上述两个问题, 但是基于ℓn-norm的回归损失更备受诟病的是边界框各个参数在优化过程中相互独立, 缺乏对IoU的考虑. 2类损失函数是基于IoU损失的回归. IoU损失[4] LIoU(B˜;B)=1−IoU(B˜;B)衍生自IoU指标, 避免预测框的参数在回归过程中互不关联. 然而IoU损失LIoU 有两个固有缺陷: 一个是当预测框与真值框不相交时LIoU为常量 1, 其梯度无法下降, 从而边界框回归分支的参数得不到更新; 另一个是在IoU取得最优值时LIoU的梯度不存在, 边界框难以收敛到IoU最优处. 其实 LIoU的固有缺陷继承自IoU 指标. 虽然随后的GIoU (Generalized IoU) 损失[5]DIoU (Distance-IoU)损失[6]CIoU (Complete-IoU)损失[6]EIoU ( Efficient-IoU)损失[7]等对预测框的中心或尺寸提出了不同的惩罚项来增加LIoU在边界框不交叠时的梯度, 但是附加的惩罚项并不能改善LIoU在最优值处的梯度不存在的问题.

 

上述基于IoU的损失方法[4-7]已经暗示在回归过程中不应该忽视边界框参数之间的关系. 但是都没有明确究竟是何种关系. 边界框通常由4个参数确定, 但在不同的研究中参数的含义有所不同, 可以由边界框的中心和尺寸表示为B(x,y,w,h)[3, 8-10], 或者是由左上角点和右下角点表示为B(xmin,ymin,xmax,ymax)[11-12], 又或是由给定的一点到四边的距离表示为B(xt,xb,xl,xr)[4, 13-14]. 其实上述表示都是等价的, 可以相互转化. 为方便下文描述, 本文统一以B(x,y;w,h)B(x,y;w,h)形式表示边界框. 不妨将预测框B˜(x,y;w,h)4个参数划分为2, 一组是中心位置(x,y), 另一组是尺寸(w,h). 显然, 对中心位置来说, 追求预测框中心与真值框中心重合总是最优的, 即便有时预测框中心在某个邻域内波动不会使IoU下降. 一个显而易见的事实是, 不存在中心偏离可以使IoU上升的情况. 但对尺寸来说并非如此, 当预测框中心发生偏离时, 追求预测框的尺寸与真值框的尺寸相同却不是最优的.

 

本文明确给出在回归过程中边界框若取得IoU最优其参数之间应服从的定量关系. 概括地说, 中心(x,y)在回归过程不需要顾及此时尺寸(w,h)处于何种情况, 而尺寸(w,h)在回归过程中需要考虑到中心(x,y)所在何处, 最优尺寸(w*,h*)=argminw,hIoU(B˜;B)=f(x,y)与中心(x,y)存在明确的函数关系. 本文从一个新的角度看待边界框回归问题, 将边界框与二元统计分布作一一映射, 从优化两个统计分布之间散度的角度研究边界框回归. 散度量化了两个不同分布之间的差异, 这种散度自然蕴含预测框各参数之间的关系, 可以避免人为设计额外的惩罚项对预测框尺寸或形状做出限制. 本文从优化两个分布之间散度的角度提出了一种光滑IoU (Smooth-IoU, SIoU)损失, 该损失函数在全局上光滑, 对于不同的研究对象, 光滑的含义也有所区别. 在本文中称在开集X∈Rn上的函数f:X→R是光滑的, 如果fC1类的, C1类的函数必然是可微的. 在本文的定义下, 光滑性也可以称作连续可微性, 且极值唯一. 光滑性确保了在全局上梯度存在使得边界框更容易回归到极值处, 而极值唯一确保了在全局上可梯度下降更新参数, 从而克服了IoU损失的固有缺陷. 提出的光滑IoU损失自然蕴含边界框各参数之间特定的最优关系, 其唯一取极值的边界框可使IoU达到最优. 而且提出的光滑IoU损失具有比IoU损失更快的回归性能. 另外, 提出的光滑IoU损失可以很容易集成到具有边界框回归分支的视觉跟踪方法中. 为了评估提出的光滑IoU损失, 本文将其集成到跟踪深度网络模型SiamFC++ 等中, 并在主要的基准LaSOTGOT10-kTrackingNetOTB2015VOT2018中进行了评估. 本文主要贡献为:

1)明确给出在回归过程中最优边界框各参数之间满足的定量关系.

2)从优化散度的角度提出光滑IoU损失, 该损失函数自然蕴含边界框各参数之间特定的最优关系, 在全局上连续可微, 且唯一极值可使IoU最优. 提出的损失函数避免了IoU损失的固有缺陷.

3)提出的光滑IoU损失可以容易集成到先进跟踪网络方法, 在主流的测试基准LaSOTGOT-10kTrackingNet等上取得显著的提升.

 1  深度目标跟踪模型的边界框回归示意图

 2  边界框类比为正态分布的示意图

 3  LIoULSIoU在对数坐标下的可视化图像示例

 

本文给出并证明了在回归过程中最优边界框参数之间满足的定量关系, 提出了一种新的用于训练边界框回归的损失, 即光滑IoU损失. 该光滑IoU损失不以IoU损失作为基本损失, 从优化散度的角度构造了全局光滑且极值唯一的损失函数, 提出的光滑IoU损失蕴含边界框各参数之间特定的最优关系, 并将边界框参数作为一个整体进行回归, 其唯一极值可使IoU达到最优. 该损失函数确保了在全局上可梯度下降更新参数, 使得边界框更容易回归到极值处, 从而规避了IoU损失的固有缺陷. 在采样数据上进行的大量实验表明, 光滑IoU损失和现有基于IoU的损失方法相比, 收敛速度更快, 带来了显著的改进. 光滑IoU损失可以很容易地集成到当前基于IoU损失的视觉任务模型中, 本文将其应用在具有代表性的无锚框目标跟踪模型 SiamFC++SiamBAN SiamCAR , LaSOTGOT-10kTrackingNetOTB2015等主流测试基准上所取得的结果验证了光滑IoU损失可以帮助提高边界框回归模块的性能.

 

作者简介

 

李功

哈尔滨工业大学模式识别与智能系统研究中心博士研究生. 分别于2015年和2018年获得哈尔滨工业大学学士和硕士学位. 主要研究方向为计算机视觉中的目标跟踪, 模式识别. E-mail: ligong101@126.com

 

赵巍

哈尔滨工业大学副教授. 主要研究方向为模式识别, 机器学习和计算机视觉. 本文通信作者.E-mail: zhaowei@hit.edu.cn

 

刘鹏

哈尔滨工业大学教授. 2007 年获得哈尔滨工业大学博士学位. 主要研究方向为图像处理, 视频分析, 模式识别和大规模集成电路设计. E-mail: pengliu@hit.edu.cn

 

唐降龙

哈尔滨工业大学教授. 1995年获得哈尔滨工业大学博士学位. 主要研究方向为模式识别, 图像处理和机器学习. E-mail: tangxl@hit.edu.cn



https://blog.sciencenet.cn/blog-3291369-1381288.html

上一篇:信息能源系统的信−物融合稳定性分析
下一篇:基于多模型融合的肺部CT新冠肺炎病灶区域自动分割
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 20:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部