||
论文题目:《Learning Instance-level Spatial-Temporal Patterns for Person Re-identification》学习示例级时空模型用于行人重识别
自:ICCV2021
论文连接:https://arxiv.org/abs/2108.00171
摘要:大多数已有的方法将多个不相交摄像头下的行人重识别问题建模成 视觉表征学习和图像搜索,这样其准确性受搜索空间的影响较大。研究证明时空信息可有效滤除不相关负样本,有效提升Re-ID的准确度。但现有的时空算法过于粗糙,没有有效挖掘时空信息。本文提出一种新的示例级且时空解耦的Re-ID方法,以提高模型准确度。该框架中融入个人信息(如移动方向)实现搜索空间进一步缩小。此外,将时空变换概率从联合分布解锁到边缘分布,这样离群点也可以被很好的建模。实验结果证明本文算法在Market-1501和DukeMTMC-reID上的mAP值为90.8%和89.1%,同时发布一组DukeMTMC-reID的清洗数据集。
方法:方法整体框架如图1所示,可看做是三流网络(示例级空间模型、示例级时间模型和视觉特征提取),最后将三个支路的信息进行融合得到联合矩阵。
3.1 示例级空间约束
用式5计算,其含义为条件概率:早期在摄像头i中出现,且摄像状态Se为s的情况下,后期在摄像头j中出现的概率。该值越大表示出现在摄像头i中的行人随后出现在摄像头j中的可能性越高。
示例状态S用行人的行进方向表征,例如图3,摄像状态值包含两种:向红色区域行走、向蓝色区域行走
3.2. 示例级时域约束
用时间间隔分布来描述时域约束,以此表征行人再两个摄像头间切换的时间流逝,用条件概率密度函数建模时间间隔分布。最终计算公式如下
其中K(.)是核函数,n是状态数,Z是正则化因数,是训练样本中镜头i中,状态为s的行人,后期又出现在镜头j的时间间隔集合。
3.3 联合矩阵
其中S表示第三个支路上计算的相似度值。
时空域融合方法为
α, β in Eq. 16 are set to 0.15 and 1
(作者给出解释为何不直接将时空域概率值进行融合:如果测试样本和gallery中图a的空间概率值为0.9和它的时间概率值为0.01,和图b的空间概率值为0.1,时间概率值也是0.1,显然probe应该和图a更接近,但如果时空值相乘的话,则结果是图b的概率更高显然这是错误滴)
3.4实现细节
行人行进方向:利用现有的追踪算法即可通过5个连续帧判别出来。
利用resnet50作为特征提取的baseline
3.分布估计中用到的高斯核的标准差设置为100
4. 实验
在两个数据集Market-1501和DukeMTMC-reID上实验,结果如下
总结:个人感觉这篇文章的创新点:1.深度方法和传统算法的有效融合 2.该文有效利用了样例的时间和空间信息且是解耦和的 3. 时空的糅合也是很有启发,提示我们多种特征的融合应考虑更有效的融合方法
==============================================================
初涉该领域,欢迎批评指正和交流!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-23 23:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社