《纳微快报》Nano-Micro Letters分享 http://blog.sciencenet.cn/u/nanomicrolett

博文

福州大学吴朝兴等:基于摩擦纳米发电机的自供电无声语音识别接口,从辅助通信到沉浸式AR/VR交互 精选

已有 1304 次阅读 2026-3-15 14:55 |系统分类:论文交流

TENG-based self-powered silent speech recognition interface: from assistive communication to immersive AR/VR interaction

Shuai Lin, Yanmin Guo, Xiangyao Zeng, Xiongtu Zhou, Yongai Zhang, Chengda Li*, Chaoxing Wu*

Nano-Micro Letters (2026)18: 143

https://doi.org/10.1007/s40820-025-01982-z

本文亮点

1. 自供电高敏感知,精准捕捉无声语音:构建基于摩擦纳米发电机的自供电柔性压力传感器,在负摩擦层表面构筑多孔金字塔结构,提升低压力区间灵敏度,以精准捕捉下颌细微运动。器件无外部供电、轻量化可穿戴,为便携式无声语音识别系统提供核心硬件支撑。

2. 深度学习赋能,实现基于无声语音的终端控制:提出CNN-LSTM混合神经网络,精准解码无声语音信号,30类日常词汇识别准确率达 95.83%,解码指令可实现智能手机非接触控制与AR/VR沉浸式交互,为言语障碍者辅助沟通和智能交互提供新方案。

1.jpg

研究背景

近年来,无声语音识别受到广泛关注,现有研究主要集中于视觉识别、表面肌电和毫米波雷达等技术路线。上述方法普遍对外部环境或专用检测系统具有较强依赖性,在系统复杂度、供电需求及可穿戴集成方面仍存在一定局限。摩擦纳米发电机凭借自供电特性、高灵敏度以及结构设计灵活等优势,在柔性传感与人机交互领域展现出良好的应用潜力。然而,无声语音场景下的下颌与口周肌群运动幅度较小,对传感器在低压力区间的响应灵敏度提出更高要求。因此,如何优化器件以实现对微弱无声语音信号的精准捕捉,成为当前亟待突破的关键技术挑战。

内容简介

针对无声语音场景下微弱压力信号难以稳定捕捉的瓶颈,福州大学吴朝兴团队基于摩擦纳米发电机开展结构优化设计,在负摩擦层表面构筑多孔金字塔结构以增强器件在低压力区间的信号输出能力。一方面金字塔结构在受压时发生可控形变,动态调节摩擦层接触面积与分离距离,实现压力变化的有效感知;另一方面多孔结构降低材料等效弹性模量并提高比表面积,两种结构协同作用,显著提升了器件的低压灵敏度,实现无声语音信号的稳定捕捉。在此基础上,结合CNN–LSTM混合神经网络对时序信号进行特征提取与分类,融合CNN的空间特征提取能力与LSTM的时间建模能力,提高识别精度。进一步将识别结果转化为可执行指令,实现对智能终端的非接触控制与沉浸式交互应用。该研究为自供电可穿戴无声语音识别技术的发展提供了新的器件设计思路与实现路径。

图文导读

I 系统构建:自供电无声语音识别整体框架

如图1所示,本文构建了一套基于摩擦纳米发电机的实时无声语音识别系统,实现了从生物力学信号获取到智能指令输出的完整技术闭环。系统由柔性压力传感器、信号采集与处理模块、深度学习识别模型及终端控制单元组成。当使用者进行无声发音时,口周及下颌区域的微弱肌肉运动被转换为电信号,经数据处理与模型解码后输出为可执行指令,实现对智能终端的控制。系统核心为基于摩擦纳米发电机原理构建的柔性压力传感器。器件采用接触分离工作模式,在周期性受压与释放过程中,通过摩擦起电与静电感应实现机械能向电信号的转换。为增强对微弱压力信号的感知能力,在负摩擦层表面引入多孔金字塔结构设计,以提高器件在低压力区间的形变响应能力和电压输出,为无声语音信号的可靠采集提供硬件基础。该系统摆脱了传统声学语音识别对麦克风与外部供电的依赖,为可穿戴人机交互提供了一种自供电解决方案。

2.jpg

图1. 无声语音识别系统整体架构与器件结构示意图。

II 器件优化与测试:结构调控实现低压高灵敏响应

图2展示了器件在结构优化过程中的对比实验与性能测试结果。在初步对比实验中,通过构建无表面结构与具有结构表面的器件进行性能比较,可以明显观察到:平面结构在低压力区间的输出响应较弱,而引入表面结构后,器件在相同压力条件下的电压输出显著提升。这一结果表明,表面结构能够有效增强接触分离过程中的界面形变与电荷变化幅度,从而实现对压力信号的有效感知。在此基础上,进一步设计并对比了不同形状、尺寸与排列密度的结构阵列。压力-电压响应曲线显示,表面结构的几何形态与分布参数对器件响应特性具有显著影响,需根据具体应用场景进行设计。考虑无声语音场景下压力幅值较小的特点,最终选取小尺寸、低密度金字塔阵列作为表面结构方案。在表面结构优化完成后,引入内部多孔弹性层以进一步提升器件性能。多孔结构有效降低材料等效刚度,使器件在微小应力作用下产生更充分的形变响应,同时增加界面有效接触面积,从而进一步提升低压力区间的输出灵敏度。表面结构与多孔结构的协同作用,使器件在目标压力范围内获得更优的响应曲线与更高的信号分辨能力。随后,对不同正摩擦材料进行筛选与对比,选择输出最高的尼龙材料。最后,对器件开展系统性能测试,结果表明器件具有良好的稳定性。

3.jpg

图2. 器件表面结构优化及性能测试。

III 信号建模与智能识别:复杂时序数据的深层解析

图3展示了无声语音动作对应的电压时序信号及其相似性分析结果。在无声发音过程中,口周及下颌肌肉的运动轨迹、收缩强度与持续时间存在差异,这些细微的生物力学变化通过器件转化为具有特定时间结构的电压信号。实验结果表明,不同发音动作能够稳定产生可重复的波形模式,说明器件能够有效记录肌肉运动的动态特征。对信号进行统计分析可以发现,各类别在持续时间、频谱中心及峰峰值分布等浅层特征上存在明显重叠,同时基于动态时间规整(DTW)计算的类别间距离也显示,部分类别的时序曲线具有较高相似度。这种高相似度特性增加了分类难度,也对算法建模能力提出更高要求。

4.jpg

图3. 无声语音信号波形及相似性分析。

如图4所示,为提升识别能力,本文构建CNN-LSTM混合神经网络开展时序信号深层特征学习:前端以一维卷积模块捕捉信号局部波形特征,中间层通过长短期记忆网络实现特征的时间依赖建模,最后经全连接层完成分类,可精准刻画高相似度信号的细微差异。实验优化重叠滑动窗口策略,在75%重叠比例下模型对30类日常词汇识别准确率达 95.83%,实现样本扩增与计算效率的最优平衡;相较传统CNN模型,该混合网络性能与稳定性更优,训练样本缩减至20%时仍保持83.06%的准确率。t-SNE可视化与混淆矩阵表明,模型实现了更优的类内紧致性与类间可分性,17类词汇识别准确率100%、11类超91.7%,有效解决浅层特征重叠导致的分类难题,为实际应用奠定算法基础。

5.jpg

图4. CNN-LSTM混合神经网络结构及识别性能测试。

IV 系统集成与场景应用:无声语音的人机交互实践

如图5所示,搭建实时无声语音识别系统,完成从信号采集、智能解码到指令执行的全链路集成,并开展多场景人机交互实际应用验证。该系统可将解码后的无声语音指令通过蓝牙实时传输至智能终端,实现智能手机的非接触式精准操控,针对 “Open camera”、“Make a call”、“Open FZU” 三类指令的识别准确率达97.22%。同时将系统与AR眼镜完成集成,实现指令的实时显示与沉浸式交互,验证了该技术在辅助沟通、智能终端控制及AR/VR等领域的实际应用价值,为构建新型无障碍人机交互体系提供了可行方案。

6.jpg

图5. 实时无声语音识别系统的人机交互应用验证及AR/VR场景拓展展示。

V  总结

本研究针对无声语音识别中微弱压力信号捕捉难、信号相似度高导致解码精度低等技术痛点,研发自供电柔性压力传感器并构建CNN-LSTM混合神经网络,搭建了完整的实时无声语音识别系统。器件通过多孔结构与金字塔表面结构协同增效,大幅提升低压灵敏度,可精准捕捉下颌细微运动并转化为稳定电信号,其自供电、轻量化可穿戴的特性,为便携式识别提供核心硬件支撑。CNN-LSTM混合网络兼顾局部特征提取与时间动态建模能力,经滑动窗口策略优化后,对30类日常词汇识别准确率达95.83%,有效解决高相似度信号解码难题。在此基础上,系统实现了智能手机非接触精准控制,并与AR眼镜联动完成沉浸式交互验证,充分体现了技术的实际应用价值。该研究不仅为言语障碍者提供了高效的辅助沟通新方式,也为AR/VR、智能穿戴等领域的无障碍智能交互开辟了新路径,兼具工程应用价值与社会意义,且器件制备工艺简单、成本低廉,具备规模化落地潜力。

作者简介

7.jpg

吴朝兴

本文通讯作者

福州大学 教授

主要研究领域

发光与显示技术

主要研究成果

福州大学教授,平板显示技术国家地方联合工程研究中心副主任,闽都创新实验室项目团队负责人,先后入选国家级高层次青年人才项目、福建省高层次人才(A类)、福建省“雏鹰计划”青年拔尖人才、福建省“闽江学者奖励计划”等。主要开展未来显示技术研究,围绕构建具有自主知识产权的显示材料器件、关键核心技术、工艺装备,聚焦微纳LED发光显示(包括Micro-LED显示与纳米像元显示NLED),在无载流子注入电致发光(Non-carrier-injection electroluminescence,NCI-EL)理论、核心材料与器件、关键装备开发等方面取得系统性原创成果。作为项目负责人承担国家重点研发计划项目、国家科技重大专项项目、国家自然科学基金项目(青年项目、面上项目)、福建省自然科学基金项目(杰青项目、面上项目)等;以第一/通讯作者发表Nat. Sens.、Nat. Commun.、Nano-Micro Lett.、Adv. Mater.、Nano Energy、ACS Nano 等,总引用8000余次;授权中国专利25件,美国专利2件,韩国专利8件,出版专著1章。

Email:chaoxing_wu@fzu.edu.cn

撰稿:原文作者

编辑:《纳微快报(英文)》编辑部

关于我们

8.jpg

Nano-Micro Letters《纳微快报(英文)》是上海交通大学主办、在Springer Nature开放获取(open-access)出版的学术期刊,主要报道纳米/微米尺度相关的高水平文章(research article, review, communication, perspective, highlight, etc),包括微纳米材料与结构的合成表征与性能及其在能源、催化、环境、传感、电磁波吸收与屏蔽、生物医学等领域的应用研究。已被SCI、EI、PubMed、SCOPUS等数据库收录,2024 JCR IF=36.3,学科排名Q1区前2%,中国科学院期刊分区1区TOP期刊。多次荣获“中国最具国际影响力学术期刊”、“中国高校杰出科技期刊”、“上海市精品科技期刊”等荣誉,2021年荣获“中国出版政府奖期刊奖提名奖”。欢迎关注和投稿。

Web: https://springer.com/40820

E-mail: editor@nmlett.org

Tel: 021-34207624




https://blog.sciencenet.cn/blog-3411509-1525586.html

上一篇:徐卫林院士、万骏&港中文龙祎等: 中红外透明材料的结构主导机制与光子能量调控
收藏 IP: 202.120.11.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-16 01:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部