IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于可解释注意力部件模型的行人重识别方法

已有 442 次阅读 2023-11-8 13:11 |系统分类:博客资讯

引用本文

 

周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法. 自动化学报, 2023, 49(10): 21592171 doi: 10.16383/j.aas.c200493

Zhou Yong, Wang Han-Zheng, Zhao Jia-Qi, Chen Ying, Yao Rui, Chen Si-Lin. Interpretable attention part model for person re-identification. Acta Automatica Sinica, 2023, 49(10): 21592171 doi: 10.16383/j.aas.c200493

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493

 

关键词

 

行人重识别,注意力机制,可解释深度学习,部件模型 

 

摘要

 

大多数行人重识别(Person re-identification, ReID)方法仅将注意力机制作为提取显著特征的辅助手段, 缺少网络对行人图像关注程度的量化研究. 基于此, 提出一种可解释注意力部件模型(Interpretable attention part model, IAPM). 该模型有3 个优点: 1)利用注意力掩码提取部件特征, 解决部件不对齐问题; 2)为了根据部件的显著性程度生成可解释权重, 设计可解释权重生成模块(Interpretable weight generation module, IWM); 3)提出显著部件三元损失(Salient part triplet loss, SPTL)用于IWM的训练, 提高识别精度和可解释性. 3 个主流数据集上进行实验, 验证所提出的方法优于现有行人重识别方法. 最后通过一项人群主观测评比较IWM生成可解释权重的相对大小与人类直观判断得分, 证明本方法具有良好的可解释性.

 

文章导读

 

行人重识别(Person re-identification, ReID)旨在通过非重叠视角域多视图下判断行人是否为同一目标, 属于图像检索的子问题[1-2]. 对于一个包含目标行人的查询图像和图像集, 行人重识别技术会根据与查询图像的相似度对来自图像集的图像排名, 进而找到同一目标, 减少人力、物力在图像序列中搜索的消耗. 行人重识别技术可以与行人检测、行人跟踪技术相结合, 在视频监控、安检、刑事侦查等方面有着广泛应用[3], 因此进行行人重识别研究具有较高的理论意义和实际价值. 但是, 人类可以解释事物的来龙去脉, 行人重识别任务用到的深度神经网络却不能做到. 深度学习所用到的架构很大程度上依靠大量的经验和技巧来设定, 通过梯度下降算法[4]来优化模型参数, 这一学习过程犹如黑盒子”[5]. 基于深度学习模型的行人重识别研究存在可解释性较弱的问题, 而且模型预测结果缺乏符合人类逻辑的解释.

 

近年来, 很多学者使用的注意力机制在图像显著特征提取上展现出了强大的能力, 可以利用人类视觉机制对模型进行直观解释, 在一定程度上增加了行人重识别模型的可解释性. 其主要方法分为两个方面, 一方面为基于部件模型的注意力机制[6-8], 用来学习身体部件的判别性特征; 另一方面为前景注意力机制[9-12], 使用行人掩码以一种有监督的方式驱使注意力. 前者往往对输入图像进行分割[7], 或使用姿态评估作为辅助[13], 能够有效地提取部件的判别性特征, 但由于行人的形态动作不一, 会导致部件分割不对齐现象, 影响模型性能, 且对整体图像分割容易引入复杂背景噪声; 后者能够帮助低层网络关注于前景区域, 因此更容易学习到判别性的特征表示. 但由于输入图像的分辨率较低, 行人掩码的质量往往较差, 容易造成对底层网络的误导[12]. 更好的做法是将前景注意力和判别性特征学习融合到端到端的网络, 二者可以在训练过程中实现互补.

 

上述方法均利用注意力机制, 学习行人的显著性特征, 提高行人重识别模型性能. 但现有基于注意力机制的行人重识别方法存在两点不足: 首先, 注意力机制仅作为网络提取显著特征的辅助手段, 无法体现网络自身对区域是否显著的判断; 其次, 大多数方法只是通过可视化注意力掩码[13-14]和热值图[15]来证明其提出的注意力模块的有效性, 缺少行人图像对网络输出结果影响的量化研究.

 

本文基于上述两点不足, 提出了一种基于可解释注意力部件模型(Interpretable attention part model, IAPM)的行人重识别方法. 本方法受到文献[16]启发, 利用注意力机制实现行人部件特征的提取, 特别地, 可以根据部件特征的显著性来生成可解释权重, 以此作为行人重识别模型对于行人部件的显著性判断, 从而获取行人部件引起模型注意的程度, 提高深度学习模型的可解释性.

 

本文的主要贡献包括以下方面:

1)提出一种基于可解释注意力部件模型的行人重识别方法, 该方法可以通过注意力机制实现灵活提取人体部件特征, 特别地, 可以依照部件的显著性程度生成可解释权重, 量化人体部件在深度学习模型训练过程中的作用, 从而提高行人重识别模型的可解释性.

2)提出一种新的可解释权重生成模块(Interpretable weight generation module, IWM), 设计新的显著部件三元损失(Salient part triplet loss, SPTL)端到端地自适应训练来提高模型表征能力及可解释性.

3)Market-1501CUHK03DukeMTMC-ReID数据集上进行实验验证, 分别达到了95.2%72.6%88.0%Rank-1准确率, 高于基线论文及大多数现有方法. 本文还进行了一项人群主观测评, 将主观测评结果与生成的可解释权重对比, 证明本方法具有良好的可解释性.

 

本文结构安排如下: 1节介绍可解释深度学习及行人重识别的相关工作; 2节介绍本文提出的基于可解释注意力部件模型的行人重识别方法; 3节给出实验设置与实验结果分析; 4节总结本文工作并对未来工作进行展望.

 1  IAPM整体结构

 2  横向分割示意图

 3  PS模块使用的伪标签

 

本文详细介绍了一种基于可解释注意力部件模型的行人重识别方法, 该方法可以根据部件特征的显著性程度生成可解释权重, 获得行人重识别模型对行人图像显著性的判断, 提高深度学习模型的可解释性. 实验结果验证了本文方法的有效性. 在未来的工作中尝试使用孪生网络来获取属于同一行人身份的特征区域依据, 进一步提高行人重识别模型的可解释性.

 

作者简介

 

周勇

中国矿业大学计算机科学与技术学院教授. 主要研究方向为数据挖掘, 机器学习和人工智能. E-mail: yzhou@cumt.edu.cn

 

王瀚正

中国矿业大学计算机科学与技术学院硕士研究生. 主要研究方向为计算机视觉, 图像处理, 行人重识别. E-mail: hzwang@cumt.edu.cn

 

赵佳琦

中国矿业大学计算机科学与技术学院副教授. 主要研究方向为多目标优化, 深度学习, 图像处理. 本文通信作者. E-mail: jiaqizhao88@126.com

 

陈莹

中国矿业大学计算机科学与技术学院博士研究生. 主要研究方向为计算机视觉, 图像处理, 行人重识别. E-mail: cheny@cumt.edu.cn

 

姚睿

中国矿业大学计算机科学与技术学院副教授. 主要研究方向为计算机视觉, 机器学习. E-mail: ruiyao@cumt.edu.cn

 

陈思霖

中国矿业大学计算机科学与技术学院硕士研究生. 主要研究方向为计算机视觉, 图像处理, 目标检测. E-mail: silin.chen@cumt.edu.cn



https://blog.sciencenet.cn/blog-3291369-1408920.html

上一篇:基于突触巩固机制的前馈小世界神经网络设计
下一篇:融合注意力机制的增强受限玻尔兹曼机驱动的交互式分布估计算法
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-4 13:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部