博文

MGMILA: 面向微手势识别的Eulerian运动感知多实例学习注意力模型 | 芬兰LUT大学刘鑫教授团队

已有 694 次阅读 2026-5-13 09:25 |个人分类:好文推荐|系统分类:论文交流

微手势是一种难以察觉的非言语行为，具有运动幅度微弱的特征。然而，其低运动强度、短持续时长的固有特点，给传统动作识别模型带来了巨大挑战。针对这一问题，本文提出受Mamba启发的微手势线性注意力模型(MGMILA)。该模型是一种具备运动感知能力的框架，融合了Mamba启发式线性注意力机制(MILA)，是专为视频微手势识别优化的线性复杂度模型。此外，本文设计了多种运动提取模块变体：运动即层(MAL)、运动即内容(MAC)与运动即门控(MAG)，用以增强时空运动定位能力。同时，引入人体分割掩码预测作为辅助任务，引导网络聚焦人体相关区域，进而提升模型的运动感知与识别性能。在iMiGUE、自发微手势数据集(SMG)与MA-52数据集上开展的实验结果表明，该方法取得了当前最优性能(SOTA)，验证了所提方案的有效性。相关成果已发表于《机器智能研究(英文)》2026年第2期"微视觉计算"专题中。

题目.jpg

图片来自Springer

全文下载：

MGMILA: Eulerian Motion-aware MILA for Micro-gesture Recognition

Bohao Xing, Deng Li, Rong Gao, Xin Liu & Heikki Kälviäinen

https://link.springer.com/article/10.1007/s11633-025-1587-8

全文导读

微手势识别已成为人工智能领域的研究热点。这类细微且多为无意识的人体动作，是重要的非语言线索，如图1所示；相较于明显的肢体动作，微手势更能深入反映人的心理与情绪状态。例如，轻微点头可表达认同，细微的腿部动作则可能暗示紧张或不适。设计优良的微手势识别系统，对推动以人为中心的智能技术发展具有巨大潜力，可在医疗诊断、智能汽车、运动表现分析、虚拟现实等多个领域实现落地应用。

图1.png

图1 图片来自iMiGUE

微手势具有动作迅速、幅度细微、行为强度极低的特征，涵盖头部、手部以及上下肢等全身各部位的肢体运动。微手势常被视作一种“无声”的交流方式，这类行为多在无意识、难以察觉的状态下发生，能够真实流露人的想法、情绪与意图。心理学相关理论表明，相比于刻意修饰的语言表述，微手势能更真实、直白地反映人的内心意图。此外，已有研究证实，肢体动作比单一的面部表情更能可靠地判定情绪状态。例如，仅依靠流泪等面部表情，很难准确判断运动员面对赛事结果时的情绪反应；而通过肢体姿态行为分析，则可清晰辨识其真实情绪。以上研究共识也进一步说明，利用微手势挖掘人的内在心理与情绪状态，正受到越来越多的研究关注。

如图2所示，微手势识别主要识别时长通常在1/25秒至1/3秒范围内的人体肢体动作。微手势识别与传统动作识别相似，均以视频序列作为输入，且需要高精度、高效率的算法；但由于微手势动作细微、幅度变化极小，使其面临独特的识别难点。这给网络模型设计提出了新的挑战：如何在数秒至数十秒的视频片段中，有效定位并提取微手势的关键时空特征区域。

图2.jpg

图2 微手势识别的特点与挑战。左图：微手势具有运动幅度微弱、动作持续时间短、涉及身体多部位的特点，难以被检测识别。红色边界框标注出微手势发生的视频帧，体现了其持续时长短、动作变化细微的固有特性。右图：现有网络架构用于微手势识别的局限性。卷积神经网络存在感受野受限、时序建模能力不足的问题；Transformer模型虽具备全局建模能力，但仍存在计算复杂度高、对细粒度运动线索不敏感、易受背景噪声干扰等难题。

现有研究多聚焦于数据集构建，却忽视了网络架构的探索与优化。本文从上述视角重新审视微手势识别任务及现有网络结构，并提出针对性改进方案。如图2所示，传统基于卷积神经网络的模型存在感受野受限、时序建模能力薄弱的问题，难以捕捉微手势所特有的细粒度、短时运动模式。另一方面，基于Transformer的模型虽具备全局上下文建模能力，但计算复杂度高、对局部运动线索不敏感，且易受背景噪声干扰。这些局限性表明，亟需一种专为微手势识别固有难点设计、具备运动感知能力的专用网络架构。

为解决微手势识别面临的各类难题，本文提出基于Mamba启发的微手势线性注意力网络(MGMILA)，这是一种专为提升微手势识别性能而设计的新型运动感知网络。传统动作识别方法往往难以捕捉细微、精细化的肢体运动，与之不同，本文所提方法引入运动提取模块，使模型能够精准定位并强化微手势的关键时空特征信息。本文的主要贡献如下：

1) 本文引入Mamba启发式线性注意力机制(MILA)用于微手势识别，该框架具有线性计算复杂度，更适用于视频数据处理，同时能够捕捉微手势的细粒度动态特征。

2) 本文设计多种运动提取模块变体，包括运动即层(MAL)、运动即内容(MAC)以及运动即门控(MAG)。这些模块通过不同机制将运动感知能力融入网络，引导模型聚焦微手势关键区域。

3) 引入人体分割掩码预测作为辅助任务，引导模型注意力聚焦于人体相关区域。

4) 本文在iMiGUE、自发微手势数据集(SMG)、MA-52三个微手势数据集上取得当前最优(SOTA)性能，验证了所提方法的有效性。

结论

本文将MGMILA模型应用于微手势识别任务，解决了细粒度运动特征难以捕捉的难题。本文设计并探究了多种运动提取模块，实验发现：MAL易破坏预训练特征，MAC性能略有提升，而MAG效果最优。原因在于，将运动特征作为门控机制，既能有效强化模型对微手势相关信息的关注度，又不会破坏预训练特征。为进一步将模型注意力引导至以人体为核心的区域，本文引入人体分割掩码预测作为辅助任务，有助于抑制无关背景噪声，并强化与微手势相关的运动特征线索。大量实验表明，该方法能够充分利用空间与时序运动信息，有效提升微手势识别效果。未来研究工作将进一步优化运动提取策略，重点在保留有效运动特征的同时降低噪声干扰。设计更具鲁棒性与自适应性的运动提取模块，对提升真实场景下的识别性能至关重要——实际应用中，细微的微手势常受背景运动及环境因素干扰。期望本研究能够为微手势理解领域研发更先进的运动感知网络架构提供参考与借鉴。

作者1.jpg

作者2.jpg

全文下载：

MGMILA: Eulerian Motion-aware MILA for Micro-gesture Recognition

Bohao Xing, Deng Li, Rong Gao, Xin Liu & Heikki Kälviäinen

https://link.springer.com/article/10.1007/s11633-025-1587-8

BibTex:

@Article{MIR-2025-06-272,

author={Bohao Xing, Deng Li, Rong Gao, Xin Liu, Heikki Kälviäinen},

journal={Machine Intelligence Research},

title={MGMILA: Eulerian Motion-aware MILA for Micro-gesture Recognition},

year={2026},

volume={23},

issue={2},

pages={352-365},

doi={10.1007/s11633-025-1587-8}}

特别感谢本文通讯作者刘鑫副教授对以上内容的审阅和修改！

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://lcn76mgd97vz.feishu.cn/share/base/form/shrcnsQ6cmRjqoxPF5WDowSBFVr

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录，入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区，最佳排名挺进Top 4%，2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4，位列人工智能及自动化&控制系统两个领域JCR Q1区；2025年发布的最新影响因子达8.7，继续跻身JCR Q1区，最佳排名进入全球第6名；2026年进入期刊分区表1区。