Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

精选好文 | 基于视觉的手势识别的迁移学习研究

已有 1384 次阅读 2021-9-2 14:28 |个人分类:好文推荐|系统分类:论文交流

手势识别在人机交互中得到了广泛应用。当前,手势识别相关研究中存在着这样一个问题:研究者们没有利用已有域的知识来发现和识别新域中的手势。每个新域都需要收集和标注大量数据,先验知识也无法用于算法训练当中,这就导致计算工作量过大、时间投入过多。为了解决这一问题,华南理工大学杨辰光教授团队提出一种手势识别方法,使在源域中训练的模型可以直接用于目标域当中,从而减少收集数据的时间,并且最小化标记数据的时间。


Springer截图.jpg

 图片来自Springer (点击上图下载全文)



image.png

近年来,人机交互(human-robot interaction)得到了迅速发展。手势能给机器人提供准确、直观的指令,是人机交互的一种重要方式。手势识别(gesture recognition)可以实现人类与机器人之间的高效交互。基于视觉的手势识别设备有很多种,例如,摄像机是手势识别领域的主要传感器。以前,大多数研究人员使用红-绿-蓝图像进行手势识别。随着科技的发展,出现了一些新设备,如Leap-motion、Kinect等。Leap-motion是一种基于红外辐射传感器的交互式硬件设备,可精确捕捉和提取手指关节的位置和角度。具体而言,Leap-Motion是用来检测和跟踪人体手势的,其跟踪误差约为200微米。


然而,来自不同设备的数据可能分布不同。因此,在某个域中训练的分类器在其他域的性能表现可能较差。对于每个域,手动收集大量示例并构建单独的分类器成本较高。如何更好地利用源域的训练模型,降低目标域的学习成本,已成为亟待解决的问题。


近年来,迁移学习(transfer learning)引起了研究者们的广泛关注。迁移学习是指将现有知识应用于其他相关领域。尽管迁移学习在国内外备受关注,但其在手势识别中的应用案例却很少。本文旨在提出一种手势识别方法,使在源域训练的模型可以直接用于目标域当中,从而减少收集数据的时间,并且最小化标记数据的时间


插图1.jpg

图片来自网络


目前,迁移学习已经有效应用于文本分类(text classification)、情绪分类(sentiment classification)、图像分类(image classification)以及其他领域,可分为特征表示迁移学习(feature representation transfer learning)、实例迁移学习(instance transfer learning)、参数迁移学习(parameter transfer learning)和关系知识迁移学习(relationship knowledge transfer learning)。


特征表示迁移学习指通过特征变换来减少源域和目标域之间差异的迁移;或者将源域和目标域的数据转换为统一的特征空间,然后使用分类算法进行识别。特征表征迁移学习是迁移学习领域最热门的研究方法之一,本文利用该方法将RGB摄像机(RGB Camera)和Leap Motion的原始数据转换为统一特征空间,然后利用分类算法进行识别。


在手势识别过程中,通常需要假设:1)相同的特征空间,这意味着训练集和测试集需要来自同一组传感器;2)总体分布相同,即实验者的偏好或习惯在训练集和测试集中是相似的;3)相同的标签空间,即训练集和测试集的标签是相同的。使用传统的无监督数据挖掘方法进行手势识别,存在数据采集周期长的实际问题。


如果使用有监督的方法,将给用户带来很大负担,用户必须标记足够多的数据来训练算法。手动标记原始传感器数据是一项耗时的任务。此外,如果独立学习每个设备的模型,忽略在其他设备中学习到的知识,也将带来繁冗的计算工作量、过高的时间成本,同时丢失有用的知识。


因此,利用所学信息,在新领域开发模型是非常有意义的。使用可迁移的知识可以减少数据收集量、减轻数据标记的工作量、提高学习速度。当前很少有研究涉及在两个或多个传感器模型之间迁移知识。本文的重点是有效解决RGB摄像机与Leap Motion之间的迁移问题,从而提高跨设备迁移的学习效率。本文提出一种将学习模型应用于另一设备的方法,并使用RGB摄像机和Leap Motion采集多个人类用户的手势数据,以验证所提出的方法。


图二.jpg

 图片来自论文


本文主要贡献如下:


1)提出一种跨设备的手势识别迁移学习框架。本文中的所有设备具有不同的数据分布,但具有相同的输出标签。


2)在RGB摄像机和Leap Motion的手势识别迁移中,本文提取了几种新颖的特征,并对比了这些特征的实验结果。


3)当使用back propagation neural network(BP NN)算法进行分类时,本文发现在某些情况下,训练的时间段对迁移结果会产生影响。训练次数过多可能导致源域中的模型过度拟合,并降低目标域中的泛化能力。


图一.jpg

图片来自论文


本文结构如下:第2节回顾了迁移学习的前期工作,第3节介绍了数据采集和特征提取,第4节介绍了实验,第5节进一步讨论了实验中发现的问题,第6节是总结。



image.png

Research on Transfer Learning of Vision-based Gesture Recognition

Bi-Xiao Wu, Chen-Guang Yang, Jun-Pei Zhong

https://link.springer.com/article/10.1007/s11633-020-1273-9     

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1273-9 



特别感谢本文作者对以上内容的审阅和修改!本文作者依次为华南理工大学吴碧霄同学(第一作者)、杨辰光教授(通讯作者)、钟峻培助理教授。



image.png

综述精选 | 演化计算 & 复杂网络 & 自监督学习

专题征稿 | 智能系统的安全性 (12月10日截稿)
中国科学院自动化研究所高层次人才招聘启事 | 长期有效
【前沿】全球首个!自动化所研发图文音三模态预训练模型
重磅 | 全球计算机领域Top1000期刊 & 科学家榜单发布
@全体科研人,"十四五"规划圈出了攻关重点!
直播回放 | 公茂果主讲:深度神经网络的结构优化
回放 & PPT | 澳科学院院士Brian Anderson最新报告
重磅 | 2021年国际学术会议参考列表
全球前列!IJAC"世界期刊影响力指数(WJCI)"喜人
最新 | 《2020全球工程前沿》全文
最新 | 2020研究前沿及热点解读



image.png

清华徐昆团队 | 基于合成数据的对比自监督表征学习

北航马帅团队 | 综述: 正则表达式正确性保证
陈伟能团队 | 综述: 面向复杂网络中社会传播问题的演化计算方法
韩清龙团队| 综述: 动态事件触发的控制与估计
毋立芳团队 | 综述:视频中的群体行为识别
基于神经架构搜索技术(NAS)的2D&3D掌纹和掌静脉识别
张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展
基于机器学习探秘神经科学,解码思想、记忆、情绪......
高效+高精度 | 汽车尾气排放趋势预测新框架
综述 | 进化计算在大规模多目标优化问题中的进展
公茂果团队 | 综述:计算智能在遥感图像配准中的应用
新模型!模拟人眼预测图像质量,失真也不怕



image.png

视频号二维码_副本.png

新版名片.png



https://blog.sciencenet.cn/blog-749317-1302551.html

上一篇:综述精选 | 演化计算 & 复杂网络 & 自监督学习
下一篇:新型沉浸式VR系统:探索动物场景认知及行为范式
收藏 IP: 159.226.180.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 23:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部