|
引用本文
安志勇, 梁顺楷, 李博, 赵峰, 窦全胜, 相忠良. 一种新的分段式细粒度正则化的鲁棒跟踪算法. 自动化学报, 2023, 49(5): 1116−1130 doi: 10.16383/j.aas.c220544
An Zhi-Yong, Liang Shun-Kai, Li Bo, Zhao Feng, Dou Quan-Sheng, Xiang Zhong-Liang. Robust visual tracking with a novel segmented fine-grained regularization. Acta Automatica Sinica, 2023, 49(5): 1116−1130 doi: 10.16383/j.aas.c220544
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220544
关键词
视觉跟踪,孪生网络,细粒度正则化,组套索
摘要
孪生网络跟踪算法在训练阶段多数采用L2正则化, 而忽略了网络架构的层次和特点, 因此跟踪的鲁棒性较差. 针对该问题, 提出一种分段式细粒度正则化跟踪(Segmented fine-grained regularization tracking, SFGRT)算法, 将孪生网络的正则化划分为滤波器、通道和神经元三个粒度层次. 创新性地建立了分段式细粒度正则化模型, 分段式可针对不同层次粒度组合, 利用组套索构造惩罚函数, 并通过梯度自平衡优化函数自适应地优化各惩罚函数系数, 该模型可提升网络架构的泛化能力并增强鲁棒性. 最后, 基于VOT2019跟踪数据库的消融实验表明, 与基线算法SiamRPN++比较, 在鲁棒性指标上降低了7.1%及在平均重叠期望(Expected average overlap, EAO)指标上提升了1.7%, 由于鲁棒性指标越小越好, 因此鲁棒性得到显著增强. 基于VOT2018、VOT2019、UAV123和LaSOT等主流数据库的实验也表明, 与国际前沿跟踪算法相比, 所提算法具有较好的鲁棒性和跟踪性能.
文章导读
目标跟踪是计算机视觉领域的前沿技术, 被广泛应用于智能监控[1]、人机交互[2]和增强现实[3]等领域. 该方向存在着许多挑战性属性, 如遮挡、形变、尺度变化、镜头移动以及快速运动等[4], 因此如何增强模型的泛化能力和鲁棒性, 已成为目标跟踪研究的关键.
当前, 相关滤波和孪生网络是目标跟踪最流行的两大范式. 其中, 相关滤波是一种有监督的线性回归技术, 它通过循环移动训练样本实现稠密采样, 利用了快速傅里叶变换的特性, 在线学习相关滤波器来定位连续帧中的目标对象[4]. 而孪生网络将跟踪视为相似性学习问题, 通过端到端的离线训练来学习目标图像和搜索区域之间的相似性, 孪生网络跟踪器能够学习物体运动和外观之间的一般关系, 并可以用来定位训练中未见过的目标.
基于相关滤波的跟踪算法具有较高的跟踪精度和实时性, 受到了较多学者的关注. Tang等[5]采用循环矩阵来生成训练样本, 并利用离散傅里叶变换将其对角化, 减少了计算量. RPCF算法[6]在滤波器上引入加权约束来等效实现感兴趣区域池化, 对模型的有效参数量进行压缩, 缓解了过拟合. 随着相关滤波跟踪算法在精度上不断提升, 许多研究者尝试利用正则化方法改进其鲁棒性. 仇祝令等[7]利用注意力机制在空域和时域上自适应约束滤波器的学习, 实现了一种基于注意力学习的正则化方法. TSCF算法[8]在时间和空间上平滑多通道滤波器, 使得学习到的滤波器的能量分布更均匀, 针对遮挡、平面内旋转等挑战性属性具有更好的鲁棒性. Hu等[9]提出了一种基于增广样本的流形正则化相关滤波跟踪方法, 实现了一个半监督目标跟踪学习框架. Xu等[10]在组套索正则化的基础上提出了组空间−通道正则化算法应用于相关滤波跟踪算法, 降低了通道级特征和跨通道级特征的冗余度.
另外, 有较多学者将相关滤波与粒子滤波、条件随机场以及显著性等技术相结合, 获得了较为满意的跟踪性能. MCPF算法[11]通过多任务相关滤波器使采样粒子聚焦在目标可能的位置, 结合粒子采样策略可以有效地解决大尺度变化问题. 黄树成等[12]考虑到响应图中数值具有连续性, 定义响应值的求解为一个连续条件随机场的学习问题, 将相关滤波与条件随机场结合, 设计了一个端到端的深度卷积神经网络. 张伟俊等[13]提出了三个模型, 包括像素级概率性表征模型、显著性观测模型和基于运动估计的观测模型, 对复杂背景、形变和平面内旋转具有更好的鲁棒性. 然而, 相关滤波采用的循环位移操作引入了边界效应, 由于循环位移, 训练样本中的负样本并不是真实的背景内容, 而是一个较小图像块的不断位移合成的重复, 因此模型在训练过程中看到的背景样本较少, 限制了其判别能力, 同时上述技术也无法避开边界效应.
基于深度学习及孪生网络的目标跟踪也取得了显著性进展, 成为当前的主流方法. 郭文等[14]提出了基于深度相对度量学习的目标跟踪方法, 构建深度相对度量学习模型, 挖掘跟踪目标在大尺度图像块里的结构相对关系. SiamFC算法[15]以AlexNet[16]为基础构建了孪生网络跟踪框架, 具有较高的鲁棒性和高速性能. 此后孪生网络系列跟踪算法(SiamRPN[17], SiamRPN++[18], SiamMask[19], SiamDW[20], SiamBAN[21-22])将跟踪问题视为计算模板和搜索区域互相关后的相似度, 根据分类与回归两个分支分别预测相似度和位置. SiamDW算法发现了主干网络影响孪生网络的三个重要因素, 分别是最后一层的感受野大小、网络总步长和特征的填充, 并且提出了一个孪生网络结构的设计思路和新的网络结构. SiamMask算法提出了对视觉目标跟踪(Visual object tracking, VOT)和视频目标分割(Visual object segmentation, VOS)的统一框架. AFST算法[23]提出一种基于像素上直接预测方式的高鲁棒性跟踪算法, 简化了分类任务和回归任务的复杂程度, 并消除了锚框和目标误匹配问题. SiamBAN算法构造了边框自适应头网络, 实现了一种无锚框跟踪框架, 且通过多层次预测自适应融合了不同层次特征, 使得算法定位精确且对目标外观变化具有较强的鲁棒性. 文献[24]提出了一种基于Transformer的全新跟踪框架, 包括特征提取、类Transformer融合和头部预测模块, 并开发了一个基于注意力机制的特征融合网络, 替代了传统的互相关层. HiFT算法[25]提出了一种层次特征转换器来学习多层次特征之间的关系, 并设计了一个简洁的特征调制层, 进一步利用了孪生网络中的层次特征. 最新的孪生网络跟踪算法AFAT[26]设计了质量预测网络模块, 可以从时空角度对潜在的跟踪失败进行可靠的预测, 结合到SiamRPN++中, 减少了跟踪失败的次数. 上述孪生网络跟踪算法多数采用L2正则化方法, 然而, 权值往往作为特定组合存在于卷积核中, 权值之间具有局部相关性, 即具有一种自然的分组结构, 而L2缺乏对于这种局部相关性的考虑, 忽视了卷积核中的分组结构, 因此模型的鲁棒性较低.
针对该问题, 本文提出将孪生网络进行细粒度分层, 划分为滤波器、通道和神经元三个粒度层次, 分别对应了卷积层的滤波器、通道和神经元的三种自然分组结构, 利用组套索构造不同粒度层次的正则项优化网络权值, 因此模型的鲁棒性比L2正则化表现更优.
本文主要贡献总结如下:
1) 针对孪生网络算法在鲁棒性方面的不足, 本文将孪生网络的训练划分为滤波器、通道和神经元三个粒度层次, 利用组套索构造惩罚函数. 根据检索分析, 这是首次将该划分方式应用于孪生网络跟踪模型中.
2) 针对简单分层无法表征组间相关性, 本文提出分段式细粒度正则化. 针对不同层次的粒度组合, 可缓解神经网络的过拟合, 从而提高孪生网络模型的鲁棒性. 自适应调节各惩罚函数的梯度量级, 防止训练过程中过度学习一些粒度层次而忽视其他粒度任务, 可进一步增强模型的鲁棒性.
3) 本文所提算法在VOT2019[27]、VOT2018[28]、UAV123[29]和LaSOT[30] 4个主流数据集上与其他国际前沿算法相比, 本文算法具有较好的鲁棒性和平均重叠期望(Expected average overlap, EAO)性能, 特别是在部分遮挡、光照变化、旋转、相机运动等挑战性属性下具有更好的鲁棒性和有效性.
图 1 分段式细粒度正则化跟踪算法的训练框架图
图 2 细粒度组套索示意图
图 3 细粒度组套索正则化在各网络分段的效果对比
本文旨在设计适应孪生网络跟踪框架的正则化, 提出了一种面向孪生网络的分段式细粒度正则化目标跟踪算法. 构造不同粒度的组套索惩罚函数应用于孪生网络, 分段式正则化策略解决了简单分层无法表征组间相关性学习问题. 另外, 本文发现在目标函数中多个惩罚函数会引起梯度量级不平衡的问题, 针对该问题采用梯度自平衡策略可进一步提升训练速度和模型的鲁棒性. 实验结果表明, 本文所提出的方法有效提高了跟踪器的鲁棒性, 基于VOT2019、VOT2018、UAV123和LaSOT 4个主流数据库, 与当前相关的主流SOTA方法进行比较, 本文所提SFGRT算法优于其他算法, 在鲁棒性上优势明显, 特别是在部分遮挡、尺度变化、光照、旋转和相机移动等挑战属性下具有良好的跟踪性能.
作者简介
安志勇
山东工商学院计算机科学与技术学院副教授. 2008年获得西安电子科技大学计算机系统结构专业博士学位. 主要研究方向为计算机视觉, 目标跟踪. E-mail: azytyut@163.com
梁顺楷
山东工商学院计算机科学与技术学院硕士研究生. 2019年获得广东工业大学物联网工程专业学士学位. 主要研究方向为计算机视觉, 目标跟踪. E-mail: keith1063@163.com
李博
山东工商学院计算机科学与技术学院副教授. 2013年获得东北大学计算机系统结构专业博士学位. 主要研究方向为人工智能, 机器学习. 本文通信作者. E-mail: libokkkkk@sdtbu.edu.cn
赵峰
山东工商学院计算机科学与技术学院教授. 2008年获得西安电子科技大学计算机应用技术专业博士学位. 主要研究方向为人工智能, 机器学习, 医学图像分析和金融大数据分析. E-mail: zhaofeng1016@126.com
窦全胜
山东工商学院计算机科学与技术学院教授. 2005年获得吉林大学计算机应用技术专业博士学位. 主要研究方向为计算智能, 数据挖掘, 知识工程和知识处理. E-mail: douqsh@sdtbu.edu.cn
相忠良
山东工商学院计算机科学与技术学院讲师. 2015年获得韩国东西大学信息技术专业博士学位. 主要研究方向为机器学习, 贝叶斯网络学习. E-mail: zlxiang@sdtbu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 10:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社