|
引用本文
杜鹏, 宋永红, 张鑫瑶. 基于自注意力模态融合网络的跨模态行人再识别方法研究. 自动化学报, 2022, 48(6): 1457-1468 doi: 10.16383/j.aas.c190340 Du Peng, Song Yong-Hong, Zhang Xin-Yao. Self-attention cross-modality fusion network for cross-modality person re-identification. Acta Automatica Sinica, 2022, 48(6): 1457-1468 doi: 10.16383/j.aas.c190340 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190340?viewType=HTML 文章简介 关键词 跨模态行人再识别, 自注意力, 模态融合, CycleGAN 摘 要 行人再识别是实现多目标跨摄像头跟踪的核心技术, 该技术能够广泛应用于安防、智能视频监控、刑事侦查等领域. 一般的行人再识别问题面临的挑战包括摄像机的低分辨率、行人姿态变化、光照变化、行人检测误差、遮挡等. 跨模态行人再识别相比于一般的行人再识别问题增加了相同行人不同模态的变化. 针对跨模态行人再识别中存在的模态变化问题, 本文提出了一种自注意力模态融合网络. 首先是利用CycleGAN生成跨模态图像. 在得到了跨模态图像后利用跨模态学习网络同时学习两种模态图像特征, 对于原始数据集中的图像利用SoftMax 损失进行有监督的训练, 对生成的跨模态图像利用LSR (Label smooth regularization) 损失进行有监督的训练. 之后, 使用自注意力模块将原始图像和CycleGAN生成的图像进行区分, 自动地对跨模态学习网络的特征在通道层面进行筛选. 最后利用模态融合模块将两种筛选后的特征进行融合. 通过在跨模态数据集SYSU-MM01上的实验证明了本文提出的方法和跨模态行人再识别其他方法相比有一定程度的性能提升. 引 言 近年来, 伴随着视频采集技术的大力发展, 大量的监控摄像头部署在商场、公园、学校等公共场所. 监控摄像的出现给人们带来了极大的便利, 其中最直接的一个好处就是可以帮助公安等执法部门解决盗窃、抢劫等重大刑事案件. 但是正是由于监控摄像头布置的区域十分广阔, 基本在大中小城市中都遍地布满了监控摄像头, 当一个目标人物在一个城市的监控摄像网络中移动时, 往往会导致公安等相关部门人员在一定时间内在整个网络中对监控视频进行查看, 这对公安等相关部门进行区域的管理以及视频的查看带来了较大的不便. 因此, 需要一种方便、快捷的方式来代替人工对监控视频中行人进行搜寻. 为了实现对监控视频中的行人进行搜寻这个目标, 其本质就是要实现多目标跨摄像头追踪, 而行人再识别技术是多目标跨摄像头追踪问题的核心与关键. 行人再识别和多目标跨摄像头追踪的关系如图1所示. 实际场景中, 摄像头拍摄到的是包含众多行人与复杂背景的图像, 这个时候可以利用行人检测技术从拍摄到的复杂全景图像中得到行人包围框, 之后对于行人包围框集合利用行人再识别技术进行搜寻. 图 1 行人再识别和多目标跨摄像头跟踪关系示意 除此之外, 犯罪分子通常会在夜间行动, 这时仅仅靠RGB相机去采集图像不能很好地解决这种夜间出现的行人匹配问题. 为了对夜晚出现的行人也能进行匹配, 除了RGB相机外, 有些地方可能会布控红外(Infrared, IR)相机, 这样, 在夜间或者是光线较暗处也可以采集到行人的红外图, 弥补了在夜晚传统的RGB相机采集失效的问题. 在这种情况下, RGB图和IR图之间的跨模态匹配(跨模态行人再识别)具有很重要的现实意义. 跨模态匹配的重点是寻找不同模态间的相似性, 从而跨越模态对行人再识别的限制. 跨模态行人再识别相对于传统的行人再识别, 除了面临行人之间姿态变化、视角变化等问题外, 数据之间还存在跨模态的难点. 图2为跨模态行人再识别数据集中的行人数据. 图中第1行为在白天通过RGB相机在室内采集到的RGB图像; 第2行为在夜晚通过红外相机在室内采集到的IR图像; 第3行为白天在室外采集到的RGB图像; 第4行为夜晚在室外采集到的IR图像. 每一列的4张图片属于同一个人, 不同列的图片属于不同的人. 与传统的RGB-RGB图像之间的匹配不同, 跨模态数据集上所关注的是IR图像和RGB图像之间的匹配, 这种跨模态匹配为行人再识别增加了不少难度, 如图2中第3列和第4列的两个行人, 通过RGB图可以很好地进行区分, 但通过IR图和RGB图匹配, 难度有一定程度的提升. 图 2 跨模态行人再识别数据 针对上述这些问题, 本文主要创新点如下: 1)提出一种自注意力模态融合网络以解决跨模态行人再识别中存在的模态变化问题; 2)提出使用CycleGAN对图像进行模态间的转换, 从而解决学习时需要对应的样本对问题; 3)提出使用自注意力机制进行不同模态之间的特征筛选, 从而有效地对原始图像和使用CycleGAN生成的图像进行区分. 图 3 自注意力模态融合网络 作者简介 杜 鹏 西安交通大学软件学院硕士研究生. 主要研究方向为行人再识别. E-mail: xjydupeng@163.com 宋永红 西安交通大学人工智能学院研究员. 主要研究方向为图像与视频内容理解, 智能软件开发. 本文通信作者. E-mail: songyh@xjtu.edu.cn 张鑫瑶 西安交通大学软件学院硕士研究生. 主要研究方向为行人再识别. E-mail: xyzhangxy@stu.xjtu.edu.cn 相关文章 [1] 林懿伦, 戴星原, 李力, 王晓, 王飞跃. 人工智能研究的新前线:生成式对抗网络. 自动化学报, 2018, 44(5): 775-792. doi: 10.16383/j.aas.2018.y000002 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.y000002?viewType=HTML [2] 梁文琦, 王广聪, 赖剑煌. 基于多对多生成对抗网络的非对称跨域迁移行人再识别. 自动化学报, 2022, 48(1): 103-120. doi: 10.16383/j.aas.c190303 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190303?viewType=HTML [3] 尹明, 吴浩杨, 谢胜利, 杨其宇. 基于自注意力对抗的深度子空间聚类. 自动化学报, 2022, 48(1): 271-281. doi: 10.16383/j.aas.c200302 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200302?viewType=HTML [4] 穆世义, 徐树公. 基于单字符注意力的全品类鲁棒车牌识别. 自动化学报. doi: 10.16383/j.aas.c211210 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211210?viewType=HTML [5] 暴琳, 孙晓燕, 巩敦卫, 张勇. 融合注意力机制的增强受限玻尔兹曼机驱动的交互式分布估计算法. 自动化学报. doi: 10.16383/j.aas.c200604 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200604?viewType=HTML [6] 张颐康, 张恒, 刘永革, 刘成林. 基于跨模态深度度量学习的甲骨文字识别. 自动化学报, 2021, 47(4): 791-800. doi: 10.16383/j.aas.c200443 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200443?viewType=HTML [7] 王亚朝, 赵伟, 徐海洋, 刘建业. 基于多阶段注意力机制的多种导航传感器故障识别研究. 自动化学报, 2021, 47(12): 2784-2790. doi: 10.16383/j.aas.c190435 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190435?viewType=HTML [8] 张玉康, 谭磊, 陈靓影. 基于图像和特征联合约束的跨模态行人重识别. 自动化学报, 2021, 47(8): 1943-1950. doi: 10.16383/j.aas.c200184 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200184?viewType=HTML [9] 林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021, 47(9): 2226-2237. doi: 10.16383/j.aas.c190074 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML [10] 李新利, 邹昌铭, 杨国田, 刘禾. SealGAN: 基于生成式对抗网络的印章消除研究. 自动化学报, 2021, 47(11): 2614-2622. doi: 10.16383/j.aas.c190459 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190459?viewType=HTML [11] 张亚茹, 孔雅婷, 刘彬. 多维注意力特征聚合立体匹配算法. 自动化学报. doi: 10.16383/j.aas.c200778 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200778?viewType=HTML [12] 刘一敏, 蒋建国, 齐美彬, 刘皓, 周华捷. 融合生成对抗网络和姿态估计的视频行人再识别方法. 自动化学报, 2020, 46(3): 576-584. doi: 10.16383/j.aas.c180054 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180054?viewType=HTML [13] 肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测. 自动化学报. doi: 10.16383/j.aas.c190805 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190805?viewType=HTML [14] 周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法. 自动化学报. doi: 10.16383/j.aas.c200493 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493?viewType=HTML [15] 吴彦丞, 陈鸿昶, 李邵梅, 高超. 基于行人属性先验分布的行人再识别. 自动化学报, 2019, 45(5): 953-964. doi: 10.16383/j.aas.c170691 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170691?viewType=HTML [16] 王金甲, 纪绍男, 崔琳, 夏静, 杨倩. 基于注意力胶囊网络的家庭活动识别. 自动化学报, 2019, 45(11): 2199-2204. doi: 10.16383/j.aas.c180721 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180721?viewType=HTML [17] 李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505?viewType=HTML [18] 姚涛, 孔祥维, 付海燕, TIANQi. 基于映射字典学习的跨模态哈希检索. 自动化学报, 2018, 44(8): 1475-1485. doi: 10.16383/j.aas.2017.c160433 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160433?viewType=HTML [19] 张淑美, 王福利, 谭帅, 王姝. 多模态过程的全自动离线模态识别方法. 自动化学报, 2016, 42(1): 60-80. doi: 10.16383/j.aas.2016.c150048 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150048?viewType=HTML [20] 冯欣, 杨丹, 张凌. 基于视觉注意力变化的网络丢包视频质量评估. 自动化学报, 2011, 37(11): 1322-1331. doi: 10.3724/SP.J.1004.2011.01322 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01322?viewType=HTML [21] 李永, 殷建平, 祝恩, 李宽. 基于FAR和FRR融合的多模态生物特征识别. 自动化学报, 2011, 37(4): 408-417. doi: 10.3724/SP.J.1004.2011.00408 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00408?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-3 07:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社