IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

结合语义和多层特征融合的行人检测

已有 1293 次阅读 2022-4-28 10:21 |系统分类:博客资讯

引用本文


储珺, 束雯, 周子博, 缪君, 冷璐. 结合语义和多层特征融合的行人检测. 自动化学报, 2022, 48(1): 282−291 doi: 10.16383/j.aas.c200032

Chu Jun, Shu Wen, Zhou Zi-Bo, Miao Jun, Leng Lu. Combining semantics with multi-level feature fusion for pedestrian detection. Acta Automatica Sinica, 2022, 48(1): 282−291 doi: 10.16383/j.aas.c200032

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200032?viewType=HTML


文章简介


关键词


行人检测, 语义分割, 特征融合, 遮挡, 二次检测


摘   要


遮挡及背景中相似物干扰是行人检测准确率较低的主要原因. 针对该问题, 提出一种结合语义和多层特征融合(Combining semantics with multi-level feature fusion, CSMFF)的行人检测算法. 首先, 融合多个卷积层特征, 并在融合层上添加语义分割, 得到的语义特征与相应的卷积层连接作为行人位置的先验信息, 增强行人和背景的辨别性. 然后, 在初步回归的基础上构建行人二次检测模块(Pedestrian secondary detection module, PSDM), 进一步排除误检物体. 实验结果表明, 所提算法在数据集Caltech和CityPersons上漏检率(Miss rate, MR)为7.06 %和11.2 %. 该算法对被遮挡的行人具有强鲁棒性, 同时可方便地嵌入到其他检测框架.


引   言


行人检测是目标检测领域研究最广泛的任务之一, 也一直是计算机视觉任务中的热点和难点. 行人检测任务是给出图像或视频中所有行人的位置和大小, 一般用矩形框标注. 行人检测技术可以与目标跟踪、行人重识别等技术结合, 应用于汽车无人驾驶系统、智能视频监控、人体行为分析等领域. 在实际场景中, 由于行人与物体、行人间互相遮挡以及交通标志、橱窗中的模特等相似信息的干扰, 行人检测任务仍然存在很大的挑战.


行人检测是目标检测中的一种特例, 现阶段的很多行人检测算法都以目标检测框架为基础. 快速区域卷积神经网络 (Fast region convolutional neural network, Fast R-CNN)和更快速区域卷积神经网络 (Faster region convolutional neural network, Faster R-CNN)是目标检测和行人检测中被广泛采用的基础框架, 目前在Caltech行人检测数据集上效果较好的算法大多是基于这两个框架. 如多尺度卷积神经网络 (Multi-scale convolutional neural network, MS-CNN)和尺度感知的快速卷积神经网络 (Scale-aware fast region convolutional neural network, SA-FastRCNN)分别基于Faster R-CNN和Fast R-CNN框架强调了尺度问题, 针对不同尺寸的行人特征设计了不同尺度的子网络.


Zhang等证明了Faster R-CNN的候选区域网络(Region proposal network, RPN)对提取行人候选区域的有效性. 但同时也指出基于区域的卷积神经网络(Region-based convolutional neural network, R-CNN)在分类阶段, 由于高层卷积特征图分辨率降低, 小尺寸的行人无法得到有效的描述, 会降低检测的总体性能. 因此提出一种结合候选区域网络与决策森林(Region proposal network + boosted forests, RPN + BF)的算法. 该算法用RPN提取候选区域, 然后用决策森林对候选区域进行分类, 有效缓解了上述问题. 同样, 针对Faster R-CNN中小尺寸行人检测效果不佳的问题, Zhang等提出自适应更快速区域卷积神经网络 (AdaptFasterRCNN), 通过量化RPN尺度、增大上采样因子、微调特征步幅、处理被忽略区域和调整损失函数的方式, 进一步提升了检测效果. Yun等提出一种基于显著性和边界框对齐的部分卷积神经网络(Part-level convolutional neural network, PL-CNN), 其用RPN提取候选区域, 对特征图中前景和背景设置不同的权重来消除背景干扰引起的误检, 有效解决了行人检测中遮挡和复杂背景干扰等问题.


目标检测算法的设计是为了更好地定位不同的对象, 检测过程中只用矩形框标注目标的位置, 通常不提供目标的边界信息. 语义分割能逐像素地定位目标的边界, 将检测和分割联合, 使用基于区域的分割方法提取特征, 自上而下地聚类计算候选区域, 能有效改进目标检测的性能. Hariharan等首次提出将分割与检测同时用于行人检测, 与文献[17]一样采用自上而下的分割方法, 不同的是使用多尺度组合分组 (Multi-scale combinatorial grouping, MCG)作为分割的候选区域. Wang等提出一种基于卷积神经网络的结合部件与上下文信息(Part and context information with convolutional neural network, PCN)的算法, 部件分支利用行人的语义信息来精准分类, 对被严重遮挡的行人具有良好的检测效果. Du等提出深层神经网络融合(Fused deep neural network, F-DNN)的架构, 主要由行人候选区域生成器、分类网络和像素级别语义分割网络组成. 该算法在语义分割网络中使用掩膜增强行人特征, 降低行人检测的漏检率(Miss rate, MR), 缺点是架构结构复杂, 提高了精度, 但牺牲了速度.


上述行人检测方法虽然添加了语义分割以解决遮挡及背景干扰等问题, 但把语义分割作为一个独立的任务来设计额外的分割网络, 计算复杂. 并且在检测过程中没有针对漏检和误检问题设计独立模块. 因此, 本文提出一种新的利用语义分割来增强检测效果的行人检测框架, 将语义分割掩膜融合到共享层, 增强行人特征, 解决行人的漏检和误检问题. 由于不增加单独的语义分割网络, 因此基本不增加模型的计算复杂度. 在RPN的回归分支中用VGG-16[22]构建一个轻量的二次检测模块, 解决前一模块初步检测的误检问题, 并且对前一次检测的结果进行二次回归.


本文的主要创新点包括:


1) 提出一种新的结合语义和多层特征融合(Combining semantics with multi-level feature fusion, CSMFF)的行人检测算法. 增加了行人特征增强模块(Pedestrian feature enhancement module, PFEM)和行人二次检测模块(Pedestrian secondary detection module, PSDM), 将语义分割掩膜融合到共享层, 有效抑制背景信息的干扰和解决不同程度的遮挡问题, 并在此基础上通过二次检测和回归减少误检, 提高定位精度.


2) 在多层特征融合的基础上结合语义分割, 将骨干网络的浅层特征像素信息与深层特征语义信息进行融合, 有效提高了小尺寸行人的检测性能.


3) 行人特征增强模块可以很方便地嵌入到已有检测框架, 基本不增加运算复杂度.


10.16383-j.aas.c200032-Figure1.jpg

图 1  本文算法框架


10.16383-j.aas.c200032-Figure3.jpg

图 3  添加语义分割前后Conv5_3层的特征可视化对比


作者简介


储   珺

江西省图像处理与模式识别重点实验室(南昌航空大学)教授. 主要研究方向为计算机视觉, 模式识别和深度学习. 本文通信作者.

E-mail: chujun99602@163.com


束   雯

江西省图像处理与模式识别重点实验室(南昌航空大学)硕士研究生. 主要研究方向为图像处理, 计算机视觉.

E-mail: shuwen0418@163.com


周子博

江西省图像处理与模式识别重点实验室(南昌航空大学)硕士研究生. 主要研究方向为图像处理, 计算机视觉.

E-mail: abaabc13@163.com


缪   君

江西省图像处理与模式识别重点实验室(南昌航空大学)副教授. 主要研究方向为计算机视觉, 3D重建和模式识别.

E-mail: miaojun@nchu.edu.cn


冷   璐

江西省图像处理与模式识别重点实验室(南昌航空大学)副教授. 主要研究方向为计算机视觉, 模式识别和生物特征模板保护.

E-mail: leng@nchu.edu.cn


相关文章


[1]  李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505?viewType=HTML


[2]  梁玉泽, 冀俊忠. 基于原型学习与深度特征融合的脑功能连接分类方法研究. 自动化学报, 2022, 48(2): 504-514. doi: 10.16383/j.aas.c190747

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190747?viewType=HTML


[3]  张帅勇, 刘美琴, 姚超, 林春雨, 赵耀. 分级特征反馈融合的深度图像超分辨率重建. 自动化学报, 2022, 48(4): 992-1003. doi: 10.16383/j.aas.c200542

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200542?viewType=HTML


[4]  雷涛, 李云彤, 周文政, 袁启斌, 王成兵, 张小红. 数据与模型联合驱动的陶瓷材料晶粒分割. 自动化学报, 2022, 48(4): 1137-1152. doi: 10.16383/j.aas.c200277

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200277?viewType=HTML


[5]  李慧芳, 黄姜杭, 徐光浩, 夏元清. 基于多维度特征融合的云工作流任务执行时间预测方法. 自动化学报.

http://www.aas.net.cn/cn/article/id/5c0f8248-128b-40e9-96f8-342ee9ab40da?viewType=HTML


[6]  孙超文, 陈晓. 基于多尺度特征融合反投影网络的图像超分辨率重建. 自动化学报, 2021, 47(7): 1689-1700. doi: 10.16383/j.aas.c200714

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200714?viewType=HTML


[7]  卢运西, 李晓光, 张辉, 张菁, 卓力. 中医舌象分割技术研究进展: 方法、性能与展望. 自动化学报, 2021, 47(5): 1005-1016. doi: 10.16383/j.aas.c180807

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180807?viewType=HTML


[8]  徐鹏斌, 瞿安国, 王坤峰, 李大字. 全景分割研究综述. 自动化学报, 2021, 47(3): 549-568. doi: 10.16383/j.aas.c200657

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200657?viewType=HTML


[9]  彭秀平, 仝其胜, 林洪彬, 冯超, 郑武. 一种面向散乱点云语义分割的深度残差−特征金字塔网络框架. 自动化学报, 2021, 47(12): 2831-2840. doi: 10.16383/j.aas.c190063

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190063?viewType=HTML


[10]  杨爱萍, 刘瑾, 邢金娜, 李晓晓, 何宇清. 基于内容特征和风格特征融合的单幅图像去雾网络. 自动化学报. doi: 10.16383/j.aas.c200217

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200217?viewType=HTML


[11]  顾广华, 曹宇尧, 崔冬, 赵耀. 基于形式概念分析和语义关联规则的目标图像标注. 自动化学报, 2020, 46(4): 767-781. doi: 10.16383/j.aas.c180523

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180523?viewType=HTML


[12]  刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报. doi: 10.16383/j.aas.c200156

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200156?viewType=HTML


[13]  宋平, 黄玲, 王云龙, 刘菲, 孙哲南. 基于计算光场成像的虹膜活体检测方法. 自动化学报, 2019, 45(9): 1701-1712. doi: 10.16383/j.aas.c180213

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180213?viewType=HTML


[14]  邹凌, 严永, 杨彪, 李文杰, 潘昌杰, 周仁来. 基于同步EEG-fMRI采集的情绪认知重评数据特征融合分析研究. 自动化学报, 2016, 42(5): 771-781. doi: 10.16383/j.aas.2016.c150545

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150545?viewType=HTML


[15]  王梦来, 李想, 陈奇, 李澜博, 赵衍运. 基于CNN的监控视频事件检测. 自动化学报, 2016, 42(6): 892-903. doi: 10.16383/j.aas.2016.c150729

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150729?viewType=HTML


[16]  侯书东, 孙权森. 稀疏保持典型相关分析及在特征融合中的应用. 自动化学报, 2012, 38(4): 659-665. doi: 10.3724/SP.J.1004.2012.00659

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00659?viewType=HTML


[17]  刘帅师, 田彦涛, 万川. 基于Gabor多方向特征融合与分块直方图的人脸表情识别方法. 自动化学报, 2011, 37(12): 1455-1463. doi: 10.3724/SP.J.1004.2011.01455

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01455?viewType=HTML


[18]  杨涛, 李静, 潘泉, 张艳宁. 基于场景模型与统计学习的鲁棒行人检测算法. 自动化学报, 2010, 36(4): 499-508. doi: 10.3724/SP.J.1004.2010.00499

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00499?viewType=HTML


[19]  葛俊锋, 罗予频. 非对称AdaBoost算法及其在目标检测中的应用. 自动化学报, 2009, 35(11): 1403-1409. doi: 10.3724/SP.J.1004.2009.1403

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.1403?viewType=HTML


[20]  孙艳丰, 唐恒亮, 尹宝才. 融合多种几何特征的三维人脸识别算法. 自动化学报, 2008, 34(12): 1483-1489. doi: 10.3724/SP.J.1004.2008.01483

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.01483?viewType=HTML


[21]  贾慧星, 章毓晋. 车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述. 自动化学报, 2007, 33(1): 84-90. doi: 10.1360/aas-007-0084

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0084?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1336006.html

上一篇:一种脑肢融合的神经康复训练在线评价与调整方法
下一篇:基于DPCA残差互异度的故障检测与诊断方法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-7-7 12:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部