博文

北京工业大学左国玉教授团队丨条件变分自编码器生成潜在空间特征的模仿学习算法

已有 201 次阅读 2026-6-29 15:00 |个人分类:论文推荐|系统分类:博客资讯

编辑荐语

本期将给大家分享"条件变分自编码器生成潜在空间特征的模仿学习算法(Imitation learning with latent space features generated byconditional variational autoencoders)". 如您对本期相关内容有好的理解与建议, 欢迎评论区留言.

本文精准瞄准了高维复杂环境中模仿学习面临的训练效率低下与应用受限的核心瓶颈, 提出了一种基于条件变分自编码器(CVAE)生成潜在空间特征的创新模仿学习算法. 研究通过CVAE将高维状态-动作空间映射至低维潜在空间, 显著降低了神经网络复杂度, 加速了策略学习进程; 同时引入动作损失预测网络与扰动层, 从输出端获取反馈, 有效提升了训练准确率与策略鲁棒性. 该方法无需人工设计奖励函数, 也无需与环境交互, 即可从离线专家数据中高效学习稳健策略. 在D4RL基准测试、微软MoCapAct人形机器人连续控制任务以及人形五指手机器人复杂操作任务上的仿真验证表明, 所提算法在训练速度、准确率与策略稳定性方面均优于现有方法, 且具备良好的跨机器人可迁移性. 本工作为高维空间下机器人技能学习提供了一条高效、稳定且实用的技术路径, 对推动模仿学习在复杂机器人系统中的应用具有重要价值.

论文介绍

条件变分自编码器生成潜在空间特征的模仿学习算法

Imitation learning with latent space features generated by conditional variational autoencoders

左国玉†, 何流远, 吴启飞, 于双悦, 李建更

机构: 北京工业大学信息科学技术学院; 计算智能与智能系统北京重点实验室

引用: 左国玉, 何流远, 吴启飞, 等. 条件变分自编码器生成潜在空间特征的模仿学习算法. 控制理论与应用, 2026, 43(5): 989 – 1000

DOI: 10.7641/CTA.2025.40139

全文链接:

http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=CCTA240139&flag=1

摘要

高维环境下的任务是复杂任务中常见的一种. 该类任务的特点就是任务环境的信息数据和机器人的控制数据中包含很多种类, 具有很高的特征维度. 现有的模仿学习方法因专家示教数据分布复杂, 难以快速学习到较好的策略. 本文针对由高维环境空间和复杂数据分布导致模仿学习算法训练时间过长和应用受限的问题, 设计了一种条件变分自编码器生成潜在空间特征的模仿学习算法. 通过主动降低环境空间维度, 减少神经网络复杂程度以加快训练速度; 利用动作损失预测网络和扰动层, 从输出中获得反馈以提升训练准确率. 本文通过D4RL基准测试、微软MoCapAct人形机器人的连续控制任务和人形五指手机器人复杂操作任务的仿真测试, 以验证所提算法的有效性, 结果表明, 本文所提方法表现出训练速度更快、准确率更高以及策略更稳定.

引言

强化学习方法在众多机器人仿真任务上取得了成功[1–2], 推动了机器人操作的快速发展, 然而这种方法在现实中的应用主要受到两个限制, 第一是需要与环境进行大量交互, 当训练长度较短时取得的效果往往不尽如人意; 第二是需要人类专家人工设计奖励, 没有良好设计的奖励会导致错误的策略. 模仿学习则绕过了这些困难, 可以在离线的静态数据集上进行学习, 并不需要人工设计奖励. 一些方法也不需要与环境进行交互[3]. 其中一种流行的方法是GAIL方法[4], 这一方法首先训练用于区分生成数据和专家数据的鉴别器, 之后训练策略尝试混淆鉴别器, 来对抗性地学习专家策略. 多年来, 人们对模仿学习算法提出了许多改进, 以提高其样本效率、可扩展性和鲁棒性[5–6], 并扩展为多层次结构以进行多任务迁移或适应新任务[7–8]. 模仿学习已经作为机器人自主控制系统的学习方法获得了广泛的应用[9–10], 这一类方法在游戏场景中作为引导机器人初始策略的方法进行了应用, 并取得了一些成功[11–12], 在一些现实场景中也有一些成功的应用, 如路径规划和导航[13–14]、能源管理[15–16]等.

在现实环境中, 模仿学习方法面临一个困难, 即在高维的状态与动作空间中学习复杂数据中隐含的策略. 现实中的机器人使用多种传感器观测周边环境状态和自身状态以获取状态数据, 根据状态数据输出动作数据进而控制自身的多个电机来执行动作, 一个时间步下往往包含数百种状态组成的状态数据和数十种动作组成的动作数据. 现有的模仿学习方法研究大多集中于对原始数据的处理利用或本身模型进行的改进, 很少关注对高维复杂任务的优化, 因此这些方法在简单的机器人上训练时会取得较好的效果, 但在处理高维复杂任务时则效果有限, 同时需要大量数据和很长时间的训练才能获得最佳性能. 在这项工作中, 本文提出了一种简单而有效的离线模仿学习方法, 使用条件变分自动编码器 (conditional variational autoencoders, CVAE)从数据中提取抽象的低维特征组成潜在空间, 并通过正则化项让空间中的分布更简单. 通过将数据集中的状态–动作数据映射到低维潜在空间, 以获得潜在动作并训练潜在策略. 采用动作近似的方法和噪声注入的方式训练策略, 从动作输出中获得反馈, 以获得更稳健的策略.

本文在D4RL数据集的连续控制任务、微软 MoCapAct人形动作数据集任务和人形五指手机器人复杂操作任务上评估了本文的方法, 验证了本文方法可以在不同任务的数据集中学习具有良好性能和高一致性的稳健策略.

总结

本文提出了一种模仿学习方法, 该方法提取专家数据集中的低维隐式特征, 并限制为一个简单的分布用于快速训练策略. 同时使用了动作近似行为克隆方法, 从输出中获取反馈. 并通过增强策略输出的数据, 强制策略网络学习更稳健的策略. 在D4RL数据集上的测试结果表现出了比现有方法更快的训练速度、更高的准确性和更稳定的表现. 在微软MoCapAct任务上的测试证明了本文方法可以成功地用于复杂的人形任务, 准确模仿类人动作. 在人形五指手机器人的操作任务上的测试也验证了本文方法在复杂操作任务上具有良好的效果. 研究结果表明, 这3点改进让本文的方法能够快速地收敛, 并获得更稳定的策略.

本文使用虚拟环境中的机器人都是按照现实中机器人的结构进行建模, 其关节都具有一个或多个自由度, 且具有可调整的刚度、阻尼和电机扭矩等参数, 可较为真实地体现实际机器人的训练表现. 此外, 本文算法可根据数据集自动地统计训练数据集中机器人的状态和动作空间维度, 并根据这两个参数自动地进行神经网络结构的调整, 之后读取数据训练, 且无需进行针对性地代码修改和参数调优, 在多种异构的机器人上均取得了良好的效果. 因此, 本文提出的算法具备一定的可迁移性.

在未来的研究工作中, 笔者一方面是要解决仅使用专家数据训练的问题, 通过加入与环境的交互来增强方法, 探索数据集分布外的状态和动作; 另一方面是对输出数据反馈增强进行更多的研究, 以提高方法的性能. 此外, 笔者将购置并装配相关机器人实物, 迁移本文算法至实际机器人, 开展机器人实物实验工作.

作者简介

左国玉教授, 博士生导师, 目前研究方向为机器人学习、机器人控制;

何流远硕士研究生, 目前研究方向为机器人学习、深度强化学习;

吴启飞博士研究生, 目前研究方向为机器人学习、机器人控制；

于双悦讲师, 目前研究方向为可穿戴机器人、机器人控制；

李建更教授, 硕士生导师, 目前研究方向为机器学习、自动控制和调度.

期刊介绍

《控制理论与应用》(Control Theory & Applications)是经国家科学技术部批准, 教育部主管, 由华南理工大学和中国科学院数学与系统科学研究院联合主办的全国性一级学术刊物, 1984年创刊, 月刊, 国内外公开发行. 《控制理论与应用》是中国科学引文数据库首批统计源期刊之一，中文核心期刊，入选中国精品科技期刊顶尖学术论文F5000项目，中国科协自动化学科领域高质量科技期刊目录以及中国科协百篇优秀科技论文遴选计划，2021年入选广东省高质量科技期刊建设项目，2022-2024年连续获得基金委资助（科技活动专项）。

期刊封面2.jpg 目录2.jpg