|
引用本文
侯建华, 张国帅, 项俊.基于深度学习的多目标跟踪关联模型设计.自动化学报, 2020, 46(12): 2690−2700 doi: 10.16383/j.aas.c180528
Hou Jian-Hua, Zhang Guo-Shuai, Xiang Jun. Designing affinity model for multiple object tracking based on deep learning. Acta Automatica Sinica, 2020, 46(12): 2690−2700 doi: 10.16383/j.aas.c180528
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180528
关键词
多目标跟踪,深度学习,度量学习,关联模型,多级关联
摘要
近年来, 深度学习在计算机视觉领域的应用取得了突破性进展, 但基于深度学习的视频多目标跟踪(Multiple object tracking, MOT)研究却相对甚少, 而鲁棒的关联模型设计是基于检测的多目标跟踪方法的核心.本文提出一种基于深度神经网络和度量学习的关联模型:采用行人再识别(Person re-identification, Re-ID)领域中广泛使用的度量学习技术和卷积神经网络(Convolutional neural networks, CNNs)设计目标外观模型, 即利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度; 再结合运动模型计算轨迹片间的关联概率.在关联策略上, 采用匈牙利算法, 首先以逐帧关联方式得到短小可靠的轨迹片集合, 再通过自适应时间滑动窗机制多级关联, 输出各目标最终轨迹.在2DMOT2015、MOT16公开数据集上的实验结果证明了所提方法的有效性, 与当前一些主流算法相比较, 本文方法取得了相当或者领先的跟踪效果.
文章导读
多目标跟踪(Multi object tracking, MOT)是计算机视觉领域的一个研究热点, 在视频监控、自动驾驶、机器人导航、行为分析等领域发挥着重要作用[1].近10年来, 随着检测器性能的不断提升[2-4], 基于检测的多目标跟踪算法[1, 5-6]受到了广泛关注.这类方法基本流程如下:由离线检测器提供视频序列每一帧中各目标的位置(即检测响应), 跟踪算法的任务是将这些检测响应与其对应的目标进行关联, 最终得到每个目标完整的运动轨迹.基于检测的多目标跟踪包括两个主要模块:关联模型、关联状态推理(即优化策略), 本文主要研究前者.
关联模型即目标间亲密度模型, 用以计算下一帧检测响应与当前帧目标之间的连接概率(或者关联代价), 为关联状态推理提供有效的依据.特征表达是关联模型设计的核心, 其中最常用的是目标外观特征和目标运动特征.近20年来, 研究者们提出了多种特征用于构建目标的外观模型, 例如颜色直方图[7]、方向梯度直方图(Histogram of oriented gradient, HOG)特征[8]、协方差特征[9]等; 外观特征在多目标跟踪过程中发挥着重要的作用, 但是在拥挤场景、以及目标(例如行人)具有相似外观的场景, 仅靠外观特征易导致错误关联.因此很多研究工作通过建模目标动态特性, 将运动特征与外观特征相融合, 构建更鲁棒的目标特征表达[6, 10].上述手工设计的特征有力推动了多目标跟踪研究的发展, 但自2015年以来更具挑战性的MOTChallenge [11-12]数据集的公开, 手工设计的特征已经难以取得令人满意的效果.例如, 目标间的严重遮挡、剧烈的光照变化和目标形变等, 将可能够导致相同目标之间距离远大于不同目标之间的距离, 造成目标之间的错误关联.
近几年, 深度神经网络(Deep neural networks, DNNs)因其强大的特征学习与表达能力, 在图像分类[13]、目标检测[3]等计算机视觉经典领域的应用取得了突破性进展; 深度学习在视觉目标跟踪(通常是单目标跟踪)领域也得到了深入研究[14-16].但基于深度学习的多目标跟踪研究却相对甚少, 其主要原因包括[17-18]: 1)多目标跟踪算法训练样本集少, 难以满足神经网络需要大量训练样本集的要求; 2)现有的深度神经网络大多是在图像分类数据集上做离线训练基础上得到的, 其缺陷是难以分辨目标间的细微差异、难以捕捉到视频目标中的运动特征.以下对近年来提出的一些代表性方法做一个简要回顾.
在现有的基于深度学习的多目标跟踪方法中, 一种常见思路是采用孪生卷积神经网络(Siamese convolutional neural networks, Siamese CNNs)提取外观特征, 判断两个检测响应是否属于同一条轨迹. Leal-Taixé等[19]以一对检测响应的原始图像和光流图像为输入, 由Siamese CNNs提取局部时空域特征, 再根据两个检测响应之间的几何及相对位置变化提取上下文信息; 采用梯度增强分类算法, 结合局部特征与上下文信息, 利用对比损失训练整个网络, 得到两个检测响应之间的关联概率; 最后采用匈牙利算法进行数据关联. Sadeghian等[20]同时考虑目标外观、运动、以及目标间相互作用机制, 提出了一种基于神经网络和多线索特征融合的关联模型, 利用二元损失函数(验证损失)分别训练一个Siamese CNNs和一个长短时记忆网络(Long short-term memory, LSTM)作为外观模型和运动模型. Tang等[21]将行人多目标跟踪任务视为行人再识别问题, 通过融合行人姿态信息, 设计基于Siamese CNNs的外观模型.值得指出的是, 为了改善关联模型的鲁棒性, 近年来在多目标跟踪研究中, 已有将度量学习嵌入到神经网络的报道. Wang等[22]提出了一种联合学习卷积神经网络和时域约束度量的轨迹片关联方法, 首先在辅助数据集上离线训练Siamese CNNs, 用该网络提取两个检测响应的外观特征, 同时对轨迹片施加一个分段时域约束, 构建多任务损失函数, 由一个Mahalanobis矩阵和时域约束矩阵组成, 通过同时训练上述两个矩阵, 得到鲁棒的目标外观相似度; 在此基础上, 再结合传统的方法得到运动相似度, 将轨迹片关联问题转换为广义线性分配问题, 采用软分配算法[23]求其优化解.此外, Milan等[24]将递归神经网络(Recurrent neural networks, RNNs)引入到多目标跟踪, 依据贝叶斯滤波理论, 采用RNNs对复杂的目标动态特性进行建模, 实现目标状态的预测、更新、以及处理新目标的出现和旧目标消失; 由于在状态更新时需要将下一时刻的观察值与对应的目标相匹配(即数据关联), 文献[24]设计了一个LSTM网络来完成此功能; 需要指出的是, 该方法仅依据目标运动特性实现了端到端网络学习和多目标跟踪, 虽然没有达到主流算法的跟踪结果, 但为基于深度学习的视频多目标跟踪的深入研究提供了许多新的、有价值的思路[18, 25-26].
行人再识别(Person re-identification, Re-ID)和行人多目标跟踪任务之间存在相似性[27], 即两者都需要判断两个目标是否属于同一人; 但与多目标跟踪不同, Re-ID问题主要依靠外观特征, 未能有效利用目标的运动特性.文献[28]对Re-ID问题中损失函数的研究表明, 三元组损失的性能要优于文献[20-21]中使用的二元损失(验证损失).受以上启发, 本文将深度卷积神经网络与度量学习相结合, 提出了一种新的多目标跟踪关联模型: 1)采用Re-ID领域中广泛使用的度量学习技术设计外观模型, 即利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度, 再结合运动模型计算轨迹片间的关联概率; 2)采用匈牙利算法[29]通过多级关联生成各目标轨迹.在2DMOT2015 [12]、MOT16 [11]公开数据集上的实验结果表明, 与当前一些主流算法相比较, 本文方法取得了相当的跟踪效果, 在部分指标上取得了领先.
图 1 多目标跟踪方法整体框架
图 2 三通道外观模型训练框图
图 3 自适应时间滑动窗原理示意图
在基于检测的多目标跟踪框架下, 提出了一种基于深度神经网络和度量学习的关联模型:利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度; 再结合运动模型计算轨迹片间的关联代价.在此基础上, 采用多级关联策略和匈牙利算法, 得到运动目标的完整轨迹.对各种场景下跟踪结果的定量与定性分析证明了基于三元组损失函数的三通道外观模型的有效性; 在2DMOT2015、MOT16公开数据集上与当前一些主流算法进行了比较, 本文方法取得了相当或者领先的跟踪效果.同时, 通过在UA-DETRAC数据集上的跟踪实验说明本文算法在除行人外的其他类别物体(如汽车)上也具有一定的有效性.但本文方法在出现长时间目标遮挡时产生错误关联, 今后可以考虑构建基于递归神经网络的运动特征提取模型, 将其提取的运动特征与原来的外观特征一起送入基于三元组损失的度量网络进行学习, 得到融合特征; 在测试阶段利用融合特征计算轨迹片关联代价, 实现轨迹片关联.
作者简介
侯建华
中南民族大学电子信息工程学院教授. 2007年获华中科技大学模式识别与智能系统博士学位.主要研究方向为计算机视觉与模式识别. E-mail: zil@scuec.edu.cn
张国帅
中南民族大学电子信息工程学院硕士研究生. 2016年获长春大学学士学位.主要研究方向为图像处理与模式识别. E-mail: guoshuaiz@scuec.edu.cn
项俊
中南民族大学电子信息工程学院讲师. 2016年获华中科技大学控制科学与工程博士学位.主要研究方向为计算机视觉与模式识别.本文通信作者. E-mail: junxiang@scuec.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 20:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社