|
RGB-D行为识别是指:通过聚合RGB,深度,和骨架三种模态的数据,分析和理解人体行为。它是计算机视觉与模式识别领域的重要研究课题之一,在安全监控,机器人设计,无人驾驶和智能家庭设计等方面都有着非常重要的应用。
与传统的RGB数据相比,多模态的RGB-D数据可以给行为分析方面的研究带来不少便利.RGB图像数据容易受拍摄环境,光照和行为人衣着纹理等与行为无关的外界因素影响,直接从RGB视频图像中推断行为人的骨架姿势,轮廓信息和一些关键动作信息是件很困难的事情,从而导致很多视频分析和行为动作分析技术在实际生活中没有得到很好的应用.如图所示,在深度视频图像中,因行人与周围的拍摄场景通常具有很高的辨识度,且所获得的深度数据不容受衣着的影响,从中获得行人轮廓骨架信息简单方便准确很多;而RGB视频中的颜色信息能更细致地刻画物体表观纹理特征,这些在处理涉及到人与物体交互的行为时显得特别重要.
RGB 骨架 深度
近几年随着深度学习的兴起,RGB-D行为识别领域有了很大的突破,通过神经网络技术以数据驱动方式自动学习到的特征逐渐代替了HOG,SIFT等手工设计特征,相关大规模行为数据集的出现进一步推动了基于深度学习的识别算法的发展.特别地, 基于循环神经网络(RNN)和卷积神经网络(CNN)的RGB-D行为识别模型在部分行为数据库上已经达到了相当高的识别率.然而仍存在着不少问题有待解决,本文主要从如下三点总结现有RGB-D行为识别方法:
首先,在RGB-D行为识别中,深度视频,RGB 视频以及骨架三种特征提取和网络训练都需要耗费大量的时间和计算资源,如何高效的进行多模态特征融合就显的尤为重要,基于多模态的行为识别仍有待进一步研究.
其次,实际测试中往往可能会遇到部分模态数据缺失或失效的情况,怎么调整多模态融合学习算法使得其能充分利用获取到的部分模态数据,也是一个重要的需要解决的研究内容.
最后,在数据库设计方面,现有的RGB-D 行为数据库都主要记录室内控制场景下的人体行为,行为样本缺少多样性,期待未来有更加复杂的大规模RGB-D行为数据库的出现.
引用格式:胡建芳, 王熊辉, 郑伟诗, 赖剑煌. RGB-D行为识别研究进展及展望. 自动化学报, 2019, 45(5): 829-840.
链接:http://html.rhhz.net/ZDHXBZWB/html/2019-5-829.htm
作者简介:
胡建芳,中山大学副研究员.2016年获中山大学数学系博士学位.主要研究方向为计算机视觉与模式识别,其中包括行为识别,行为意图预测等.目前在国际权威刊物ICCV, CVPR,ECCV, IEEE TPAMI和IEEE TCSVT上发表多篇论文。
E-mail: hujf5@mail.sysu.edu.cn
王熊辉,中山大学模式识别与智能系统专业在读硕士研究生,2015年获中山大学智能科学与技术学士学位,主要研究方向为图像处理, 计算机视觉与模式识别.
E-mail: wxiongh@mail2.sysu.edu.cn
郑伟诗, 中山大学数据科学与计算机学院教授.他主要面向大规模智能视频监控,展开视频图像信息与信号的处理研究,并开展大规模机器学习的算法和理论研究.他目前的主要研究应用领域是:视频监控下的行人身份识别与行为信息理解.他已发表100余篇主要学术论文,其中70余篇发表在图像识别和模式分类领域IEEE TPAMI,IEEE TIP,IEEE TNNLS等国际主流权威期刊和ICCV,CVPR等计算机学会推荐A类国际学术会议.担任PatternRecognition等期刊的编委,担任AVSS2012,ICPR2018,BMVC2018AreaChair 等.获国家优秀青年科学基金,英国皇家学会牛顿高级学者基金等项目支持.
E-mail: zhwshi@mail.sysu.edu.cn
赖剑煌, 中山大学教授.1999年获中山大学数学系博士学位.主要研究方向为图像处理,计算机视觉,模式识别. 目前在IEEE TPAMI,IEEE TNNLS, IEEE TIP, IEEE TSMC-B, PR, ICCV, CVPR, and ICDM 等国际权威刊物发表论文200多篇.本文通信作者.
E-mail: stsljh@mail.sysu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-1 17:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社