|
研究背景
手势识别是一种直观的交流方式,在人机交互领域获得广泛关注。捕捉手部动作的常见技术包括图像识别、雷达系统和可穿戴技术等。其中,高分辨率摄像头、加速度计或雷达系统等笨重的设备不适合日常佩戴。相比之下,可穿戴设备可以无缝集成到各种配件中,为监测手部运动提供了一种有吸引力的替代方案。深度神经网络能够分析和学习可穿戴设备捕获的手势,但它们受到传统监督学习方法的限制,严重依赖大量的手动标记数据来执行单个任务,费时费力,同时在适应新用户或新场景又需要收集大量新的标记数据,或修改整体模型架构。因此,提高数据处理效率并优化训练过程以增强用户体验是一项重大挑战。
A Rapid Adaptation Approach for Dynamic Air-Writing Recognition Using Wearable Wristbands with Self-Supervised Contrastive Learning
Yunjian Guo, Kunpeng Li, Wei Yue, Nam-Young Kim, Yang Li*, Guozhen Shen*, Jong-Chul Lee*
Nano-Micro Letters (2025)17: 41
https://doi.org/10.1007/s40820-024-01545-8
本文亮点
1. 利用自监督学习算法,开发了具有四通道传感阵列和无线传输模块的可穿戴腕带,用于跟踪空中书写和动态手势。
2. 该模型可以从随机手腕运动的未标记信号中学习先验特征以进行训练,从而显着减少对大量标记数据的依赖。
3. 腕带系统使用少量数据进行微调后,即可快速适应多种场景,通过自然且直观的方式大大增强了用户的交互性。
内容简介
基于深度学习的可穿戴腕带系统彻底改变了日常活动中的手势识别。与通常专注于静态手势并需要大量标记数据的现有方法不同,山大李阳&北理沈国震&韩国光云大学Jong-Chul Lee等提出的具有自我监督对比学习功能的可穿戴腕带在动态运动跟踪方面表现出色,并且可以在多种场景中实现快速适应。它具有四通道传感阵列,由具有分层微锥结构的离子水凝胶和超薄柔性电极组成,可实现高灵敏度的电容输出。通过来自 Wi-Fi 模块的无线传输,所提出的算法从随机手腕运动的未标记信号中学习潜在特征。只有少量标记数据足以微调模型,从而能够快速适应各种任务。该系统在不同场景下实现了 94.9% 的高精度,包括八个方向指令的预测,以及所有数字和字母的空中书写。所提出的方法有助于在多个任务之间稳定切换,而无需修改模型结构或进行大量的特定任务训练。为了进一步拓展该系统的实用性,以增强数字平台上的人机交互,开发了包括游戏控制、计算器和三种语言的登录系统,为用户提供一种自然直观的通信方式。
图文导读
可穿戴腕带利用时间序列交叉视图融合对比 (TS-VFC) 学习算法在人机交互中进行动态手势识别,如图 1 所示。这个通用的学习框架可以快速适应多种场景,而无需大量的标记数据收集。腕带具有四个灵活的离电式器件阵列和一个用于无线通信的 Wi-Fi 模块。每个器件都由银纳米线 (AgNWs)/改进的聚乙烯醇 (PVA) 制成的超薄电极 (25μm) 和具有微锥结构的水凝胶介电层组成。TS-VFC 学习方法从手腕收集未标记的随机运动数据,创建一个先验特征的潜在空间 (LTS)。它使模型能够针对具有少量标记数据的新用户或场景进行微调,从而避免了大量训练或重新设计模型的需要。
图1. 可穿戴腕带和空中写作预测过程的示意图。a 包含四个传感设备 (D1–D4) 的腕带配备无线 Wi-Fi 模块,用于空中书写识别。b (i) 离电式器件的设计结构图,包括 AgNWs/PVA 电极和具有分层微锥的光固化离子水凝胶。(ii) 腕带系统和定制用户界面的简要框图。c 通过 TS-VFC 学习实时预测和显示空中书写。方向、数字和字母的快速适应过程:通过 TS-VFC 学习从随机手腕运动中学习 LTS 的先验特征,并使用少量标记数据进行微调以快速适应各种任务
I 离电式器件的传感机理与性能
离电式器件的压力传感机制的示意图如图 2a 所示,光固化水凝胶在其中起着关键作用。阴/阳离子聚集在电极和水凝胶之间的界面处,形成电双层(EDL)。水凝胶层含多级微锥结构,以增加压力变化时的接触面积变化。低压力主要影响较高微锥的接触面积变化,随着压力的增加,当较高的微锥被压缩后,较小的微锥依次接触上部电极,接触区域发生了显著变化,由此产生了很高的界面电容。
图2. 传感机制和性能,以及 TS-VFC 算法架构。a 离电式器件传感机制示意图。b 具有微锥结构的离子水凝胶和AgNWs/PVA 电极的扫描电子显微镜 (SEM) 图像。c 电容随压力的归一化变化。d 预载荷高压 (42 kPa) 时,微小压力 (1.5 kPa) 变化而引起的响应。设备的响应和恢复时间。e 预测过程的图示,包括准备带有附加传感设备和无线模块的腕带、随机运动的 TS-VFC 学习、少量样本微调和实时信号预测。f TS-VFC 学习模型架构的详细信息。
II 通过对比学习快速适应多场景任务
图 2e 描绘了整个预测过程,所提出的模型没有使用标签对四个电容信号进行分类,而是采用未标记的随机手腕运动信号进行自监督对比学习,区别于传统的监督算法。使用这种方法,可以自主学习传感器信号中的特征,形成一个可分离的特征空间,从而支持对不同任务进行分类。原理是计算相同样本和不同样本之间的相似性,创建手腕产生信号的 LTS,以表示先前的运动。因此,新用户可以快速参与各种任务的迁移学习,促进不同样本的划分。在执行新任务时,只需收集特定于该任务的少量手腕运动数据,然后将这些信号投射到 LTS 上。通过度量计算,将这些特征与实时输入进行比较,就能显示对手腕运动手势的精确预测,即使对于未包含在模型训练集中的任务也是如此。
III 预测8个方向和游戏控制
当用户的食指指向不同的方向时,无线模块会捕获来自四个设备的相应电容信号。可以通过微调特定于方向的标记运动数据来实现实时方向预测。图 3a 说明了当食指向八个不同方向移动时相应的信号波形。所提出的模型旨在有效地适应引入少量标记数据集的新操作,同时保留原始操作的信息。训练过程不需要加强,模型也不需要针对新添加的动作重新设计。对于8个方向,每个方向只需要5次数据即可完成微调。
图3. 方向预测和游戏控制的演示。a 八个方向的实时四通道信号波形。b 使用腕带实时预测方向识别的照片。c 用于预测 8 个不同方向的混淆矩阵,平均准确率为 82.0%。d 使用迁移学习对标记数据的高维潜在特征进行8方向识别的 t-SNE 映射。e 游戏控制演示和游戏界面截图。
IV 预测空中书写数字和字母
图 4a 说明了使用腕带进行空中书写数字的场景,以及显示四通道信号和预测的界面。数字 “8” 是通过在写入过程中提取电容信号来识别的。所提出的模型在预测16类数字和符号时实现了 81.2% 的平均准确率,每个类别只需5次学习,消除了大量标记数据进行训练的必要性。如图4b所示,采用t-SNE算法来可视化这些特征并将它们映射到特征空间上,揭示了每个类别形成不同的集群。尽管个体之间存在潜在差异,但所提出的模型可以持续学习新用户的写作特征。图 4f 说明了TS-VFC算法学习的预训练模型适应不同场景的能力。此外,以数字预测场景为例,通过构建不同的模型变体进行消融实验,与TS-VFC模型进行比较,旨在证明每个模块的有效性。
图4. 空中书写数字和字母的演示。a 实时书写数字预测的照片,以及空中书写“8”的详细过程和波形。b 使用迁移学习对测试集的高维潜在特征进行 t-SNE 映射。c 实时字母预测的照片,以及空中书写“E”的详细过程和波形。d 字母和功能键的测试集的高维特征的t-SNE映射。e 同一用户在不同时间和4个不同用户空中书写字母和功能键的准确性比较。f 不同任务在微调训练时期的准确性趋势。g TS-VFC模型不同变体的消融实验研究,并使用不同的数据增强方法进行数字预测。
V 空中书写输入系统演示
空中书写输入系统(图5a)将来自腕带的信号通过无线模块传输到计算机进行进一步处理和识别,预测结果会实时显示在界面上。图5b 表示空中书写方程 “2.9 × 5 + 6/3 =”时的四通道信号的连续变化,输入符号“=”即可得到方程的最终结果。图5c演示了使用功能键“SHIFT”切换三种语言(英文、中文、韩文)的问候语时的信号变化。支持多语言输入的登录系统如图 5d所示,用户可以通过切换其空中书写用户名的输入来访问各种语言系统。无需学习专有符号即可将空中书写字符转换为计算机可理解的信号的能力,最大限度地减少了用户负担。
图图5. 基于空中书写的计算器、键盘输入和登录系统的图示。a 空中书写输入系统示意图。b 计算运算过程中 4 个信号的波形,以及计算器界面的屏幕截图。c 键盘输入界面截图,以及空中书写问候语时四个信号的波形。d 基于腕带的多语言登录系统示意图。实时预测输入用户名和密码,以及不同语言的登录界面截图。
VI 总结
利用TS-VFC学习,推出了一种可穿戴腕带,有助于快速适应动态手势跟踪的各种场景。在模型的预训练阶段形成LTS 后,腕带系统已被证明可以有效地处理多个场景中的各种任务,包括精确八方向命令的预测以及数字和字母的空中书写。它可以适应新的手势识别任务,而无需重新设计架构或对特定任务进行大量训练。使用最少的标记数据,可以微调模型以泛化到新任务,即使是那些最初未包含在训练数据中的任务。此外,还演示了游戏控制、计算器操作和登录系统等实际应用,突出了人机交互的可行性和潜力。这种基于自监督学习的腕带系统与用户无缝集成,通过与日常习惯相符的手势提供直观的通信和控制数字界面的方式。
作者简介
李阳
本文通讯作者
山东大学集成电路学院 教授
▍主要研究领域
新一代半导体材料与器件;“传感存算一体化”芯片系统。
▍个人简介
博士生导师,IEEE高级会员,科技部中韩青年科学家、山东省泰山学者青年专家、山东省高校集成电路创新团队带头人、山东省优青、山东省青年科技人才托举工程入选者、齐鲁青年学者,主持国家自然科学基金项目、科技部项目、山东省优秀青年基金项目、山东省重点研发计划项目等省部级以上项目10余项。主要研究领域:新一代半导体材料与器件;“传感存算一体化”芯片系统。已累计以第一作者/通讯作者在PNAS、Chem. Soc. Rev.、Matter、Adv. Mater. 、Adv. Funct. Mater. 、Adv. Sci.、Nano Lett.、IEEE Trans. Electron. Dev.、IEEE EDL等领域内顶尖期刊上发表SCI检索文章100余篇,其中中国科学院一区文章80余篇,包含封面文章12篇,高被引论文、热点论文10篇,授权国家发明专利30项,韩国发明专利11项。
▍Email:yang.li@sdu.edu.cn
沈国震
本文通讯作者
北京理工大学集成电路与电子学院 特聘教授
▍主要研究领域
低维半导体材料及相关柔性电子器件的研究。
▍个人简介
国家杰出青年科学基金获得者,长期从事低维半导体材料及相关柔性电子器件的研究。以第一完成人身份获北京市科学技术二等奖、中国材料研究学会科学技术一等奖等。现任英国皇家化学会会士、中国材料研究学会理事。发表SCI收录论文300余篇,获引用超过3万,H-index为94。
▍Email:gzshen@bit.edu.cn
撰稿:原文作者
编辑:《纳微快报(英文)》编辑部
关于我们
Nano-Micro Letters《纳微快报(英文)》是上海交通大学主办、在Springer Nature开放获取(open-access)出版的学术期刊,主要报道纳米/微米尺度相关的高水平文章(research article, review, communication, perspective, highlight, etc),包括微纳米材料与结构的合成表征与性能及其在能源、催化、环境、传感、电磁波吸收与屏蔽、生物医学等领域的应用研究。已被SCI、EI、PubMed、SCOPUS等数据库收录,2023 JCR IF=31.6,学科排名Q1区前3%,中国科学院期刊分区1区期刊。多次荣获“中国最具国际影响力学术期刊”、“中国高校杰出科技期刊”、“上海市精品科技期刊”等荣誉,2021年荣获“中国出版政府奖期刊奖提名奖”。欢迎关注和投稿。
Web: https://springer.com/40820
E-mail: editor@nmlett.org
Tel: 021-34207624
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 23:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社