IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于多阶信息融合的行为识别方法研究

已有 1712 次阅读 2022-9-17 19:01 |系统分类:博客资讯

引用本文

 

张冰冰, 葛疏雨, 王旗龙, 李培华.基于多阶信息融合的行为识别方法研究.自动化学报, 2021, 47(3): 609-619 doi: 10.16383/j.aas.c180265

ZHANG Bing-Bing, Ge Shu-Yu, WANG Qi-Long, LI Pei-Hua. Multi-order Information Fusion Method for Human Action Recognition. Acta Automatica Sinica, 2021, 47(3): 609-619 doi: 10.16383/j.aas.c180265

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180265

 

关键词

 

行为识别,双流卷积神经网络,多阶信息融合,二阶聚合 

 

摘要

 

双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息, 测试阶段将多个视频局部特征的分类器分数平均作为最终的预测. 但是, 一阶统计信息不能充分建模空间和时间特征分布, 测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息. 针对这两个问题, 本文提出一种基于二阶聚合的视频多阶信息融合方法. 首先, 通过建立二阶双流模型得到视频局部特征的二阶统计信息, 与一阶统计信息形成多阶信息. 其次, 将基于多阶信息的视频局部特征分别进行二阶聚合, 形成高阶视频全局表达. 最后, 采用两种策略融合该表达. 实验表明, 本文方法能够有效提高行为识别精度, 在HMDB51和UCF101数据集上的识别准确率比双流卷积神经网络分别提升了8 % 和2.1 %, 融合改进的密集点轨迹(Improved dense trajectory, IDT) 特征之后, 其性能进一步提升.

 

文章导读

 

行为识别在智能监控、人机交互和视频检索等领域中得到了广泛的应用, 引起了众多研究者的关注. 由于行为视频的拍摄视角、背景和尺度等方面具有多样性, 使得不同行为的类间差异较小, 相同行为的类内差异较大, 所以基于视频的人体行为识别是非常具有挑战性的研究课题[1-3].

 

2012, Hinton带领的团队在大规模图像竞赛ILSVRC (ImageNet large scale visual recognition challenge) 中凭借卷积神经网络(Convolutional neural network, CNN) 模型AlexNet[4]赢得了该年度比赛的冠军. 此后, 基于卷积神经网络的方法在图像分类、物体检测、图像分割和人脸识别等计算机视觉领域的研究中占据了重要的位置. 虽然卷积神经网络在处理静态图像任务中的表现令人印象深刻, 但是由于无法建模视频中的时序变化信息, 基于卷积神经网络的行为识别方法在相当长的一段时间内仍然一直无法超越基于人工设计特征的方法[5].2014, Simonyan[6]提出了双流卷积神经网络模型, 将基于卷积神经网络的方法较好地拓展到视频分析领域. 该模型由两个独立的空间信息网络和时间信息网络构成. 空间信息网络的输入为视频的单帧彩色图像, 是视频中的环境、物体的空间位置信息的载体. 时间信息网络的输入是堆叠光流灰度图像, 代表时序变化信息, 用来建模行为的动态特征. 通过融合两路网络softmax输出的分数, 得到最后的识别结果. 双流卷积神经网络模型对于行为识别任务十分有效, 研究者们基于此模型提出了多种融合双流网络的方法. Feichtenhofer[7]在最后一个卷积层融合视频序列中连续多帧图像的空间和时间特征, 然后对融合后的时空特征进行3D卷积和3D池化操作. Feichtenhofer[8-9]进一步研究了使用残差网[10]作为双流模型基本架构时的融合方法, 提出了在空间流和时间流之间加入短连接, 将时间流信息注入到空间流之中, 以增强双流之间的时空交互. 其中, ST-ResNet[8]采用直接注入的方式, ST-multiplier[9]的时间流信息会先经过乘法门函数. 在增强了时空信息的交互的同时, 这两个工作中都将网络中2D卷积核拓展成了3D卷积核, 扩大了视频局部特征建模时序的范围. Wang[11]引入了空间和时间二阶统计信息, 并在最后一个卷积层以金字塔的形式融合双流网络, 形成了更有效的视频局部时空特征. Wang[12]将视频片段分成N, 利用一阶双流网络分别提取每一段的特征, 最后对每一段的特征进行加权融合, 得到最终的视频表达.

 

上述工作主要研究基于RGB视频的行为识别. 除此之外, 学者们也研究了基于RGB-D视频的行为识别问题, 即采集的视频图像中包含深度(Depth) 信息. Hu[13]提出了一种异质特征融合方法, 通过融合动态骨架特征、动态颜色模式特征和动态深度特征, 4RGB-D行为数据库上取得领先性能. Shahroudy[14]提出了一种基于深度自编码的共享特定特征分解网络, 将输入的多模态信号分解成不同的组成成分, 并提出使用混合范数作为多特征的正则项, 可以选择不同组合的特征, 该方法在5RGB-D行为数据库取得较好结果. Hu[13]Shahroudy[14]的工作不同, 本文主要研究基于RGB视频的行为识别方法.

 

目前基于双流卷积神经网络的工作中, 仅融合了视频空间和时间特征的一阶统计信息, 没有考虑更高阶的统计信息. 以上的融合方法虽然在训练时获得了视频局部空间和时间特征的一阶统计信息或二阶统计信息, 但是没有同时利用视频局部特征的一阶和二阶信息. 尽管在训练阶段都扩大了局部特征建模时序的范围, 但在测试阶段仅考虑融合多个视频局部特征的分类器分数, 没有考虑局部特征之间的统计信息. 为了解决双流卷积神经网络方法中存在的问题, 同时受到多种模态特征融合方法的启发, 本文提出了基于二阶聚合的视频多阶信息融合方法.

 

本文方法流程如图 1所示, 主要分为两个阶段, 1阶段为一阶和二阶双流网络的训练, 2阶段是基于二阶聚合的多阶信息融合. 在第1个阶段中, 空间流和时间流都利用在ImageNet数据集[15]上预训练的网络, 分别在目标数据集上进行微调, 微调后的双流模型可以提取视频局部空间和时间特征的一阶统计信息. 对于视频局部特征二阶统计信息的获取, 则受到了图像分类领域研究方法的启发. 在图像分类中, 特征分布的二阶信息有着较为广泛地应用, 对分类准确率的提升也起到重要作用. Lin[16-17]提出了一种双线性池化卷积神经网络, 该网络将最后一层卷积层的输出特征进行外积计算, 从而得到特征分布的二阶信息, 该方法在精细粒度图像分类任务上取得了较高的准确率.Li等提出了MPNCOV卷积神经网络[18]及其快速算法iSQRT-COV卷积神经网络[19], 这两个网络通过对卷积层的输出进行协方差池化, 并对协方差矩阵进行幂正规化处理, 将正规化协方差矩阵进行取上三角矩阵并向量化, 作为图像的表达, 该表达包含了特征分布的二阶统计信息, 这一系列的工作在大规模图像分类任务以及精细粒度图像分类中取得了优异的性能. 考虑计算速度和收敛速度, 本方法基于iSQRT-COV卷积神经网络建立了二阶双流网络模型, 用来获取视频局部空间和时间特征的二阶统计信息.

 1  基于二阶聚合的多阶信息融合方法流程图

 

在基于二阶聚合的多阶信息融合阶段, 对基于多阶信息的视频局部特征分别进行聚合. 为了获取视频局部特征之间的交互信息, 通过双线性池化[16-17]这样的二阶聚合方式处理视频局部特征, 但是双线性池化后得到的表达维度较高, 将带来较大的计算和存储代价. 为了在降低维度的同时不损失多阶信息的表达能力, 本文使用压缩双线性池化方法[20]对基于多阶信息的视频局部特征分别进行聚合, 形成高阶视频全局表达. 最后, 使用表达级和分类器分数级两种不同策略融合4种视频全局表达.

 2  视频局部特征z进行压缩双线性池化操作流程图

 3  表达级融合过程示意图

 

本文针对基于双流卷积神经网络存在的两点不足提出了基于二阶聚合的多阶信息融合方法. 本文的主要贡献在于: 建立了二阶双流网络模型, 获取了空间和时间特征的二阶统计信息, 与经典双流模型获取的一阶统计信息形成了多阶信息. 基于多阶信息的视频局部特征经过二阶聚合后形成了高阶视频全局表达. 实验表明, 二阶双流模型具有更好的性能, 一阶双流模型和二阶双流模型获取多阶信息融合十分有效, 形成的4种视频高阶全局表达全部参与融合时互补性最强. 融合后的表达在难度较大的HMDB51数据集上优势十分明显, UCF101上也达到了与当前最好算法相同的性能, 融合IDT特征能进一步提高识别准确率.

 

作者简介

 

张冰冰

大连理工大学信息与通信工程学院博士研究生. 2016年获长春工业大学硕士学位. 主要研究方向为人体行为识别, 图像分类, 深度学习. E-mail: icyzhang@mail.dlut.edu.cn

 

葛疏雨

大连理工大学信息与通信工程学院硕士研究生. 2016年获大连理工大学通信工程专业学士学位. 主要研究方向为图像分类, 人体行为识别, 深度学习. E-mail: gsy@mail.dlut.edu.cn

 

王旗龙

博士, 天津大学智能与计算学部副教授. 主要研究方向为图像建模, 视觉数据分类, 深度学习. E-mail: qlwang@mail.dlut.edu.cn

 

李培华

博士, 大连理工大学信息与通信工程学院教授. 主要研究方向为基于信息几何的图像分类与检索. 本文通信作者. E-mail: peihuali@dlut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1355756.html

上一篇:【精选导读】模型分类和医学影像分析
下一篇:城市污水处理过程动态多目标智能优化控制研究
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 20:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部