|
引用本文
金聪聪, 刘安东, LIU Steven, 张文安. 基于改进动态系统稳定估计器的机器人技能学习方法. 自动化学报, 2022, 48(7): 1771−1781 doi: 10.16383/j.aas.c200341
Jin Cong-Cong, Liu An-Dong, Liu Steven, Zhang Wen-An. A robot skill learning method based on improved stable estimator of dynamical systems. Acta Automatica Sinica, 2022, 48(7): 1771−1781 doi: 10.16383/j.aas.c200341
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200341
关键词
示教学习,动态系统,贝叶斯非参数模型,高斯混合模型,李雅普诺夫函数
摘要
提出一种基于改进动态系统稳定估计器的机器人技能学习方法. 现有的动态系统稳定估计器方法可以通过非线性优化来确保学习系统的全局稳定性, 但是存在确定高斯混合分量个数困难以及稳定性和精度无法兼顾的问题. 因此, 根据贝叶斯非参数模型可以自动确定合适分量个数的特性, 采用狄利克雷过程高斯混合模型对演示进行初始拟合. 随后利用参数化二次李雅普诺夫函数重新推导新的稳定性约束, 有效地解决了动态系统稳定估计器方法中稳定性和精度难以兼顾的问题. 最后, 在LASA数据库和Franka-panda机器人上的实验验证了新方法的有效性和优越性.
文章导读
近年来, 机器人产业高速发展, 整体规模持续增长, 在制造业和服务业等众多领域都有广泛应用. 随着工业产品迭代速度日益增长, 个性化需要与日俱增, 传统依靠手工编程完成特定任务的方法难以适应新的需求. 因此, 迫切需要开发简单实用, 且可以灵活适用于多种任务的机器人技能学习方法.
机器人示教学习(Learning from demonstration, LfD)的灵感最初来源于人类的模仿学习, 近几年获得学术界和工业界的广泛关注[1–4]. 机器人通过观察用户演示来学习新技能, 同时将新技能泛化到不同场景下的相似任务中去, 一般包含演示、学习、复现三个阶段. 演示阶段需要解决的问题是如何向机器人进行技能演示, 常用的方法有视觉示教、动觉示教、遥操作示教和双臂示教. 学习阶段是对技能进行建模, 抽象的技能符号由示教数据具体表示, 然后利用示教数据训练模型参数. 复现阶段的性能主要体现在稳定性、复现精度、泛化能力和抗干扰性能4个方面.
动态系统(Dynamical system, DS)是对机器人技能进行建模的常用方法[5], 该方法将规划和执行集成到一起, 并将所有可能的解决方案嵌入到模型中以实现目标[6]. 在非线性DS基础上发展起来的动态运动原语只要进行一次演示就可以对运动进行建模[7], 动态运动原语描述的运动模型由非线性DS和线性DS组成, 其中非线性部分保证了轨迹复现的相似度, 线性部分则确保了模型全局稳定性, 两者的切换依靠相位变量平稳进行. 尽管动态运动原语提供了一种有效而精确的方法来对复杂的动态进行编码, 但是单变量编码丢失了各自由度之间的相关信息, 而且该方法本质上仍依赖于时间, 在面对时间扰动时需要用启发式方法重置相位变量[8].
为弥补动态运动原语的缺陷, 文献[9]提出了动态系统的稳定估计器(Stable estimator of dynamical systems, SEDS). 它首先利用高斯混合模型(Gaussian mixture models, GMM)和高斯混合回归(Gaussian mixture regression, GMR)的概率学习方法对轨迹进行初步拟合. 概率学习方法是轨迹编码中的常用方法, 它可以保留演示的固有可变性[10], 但是无法确保训练得到的动态系统具有全局稳定性. 因此SEDS在后续优化中加入了稳定性约束, 确保机器人在不受扰动的情况下能够到达目标点. 然而, 过于严格的稳定性约束可能会在学习过程中限制模型的精度. 针对SEDS方法中稳定性和精度难以平衡的问题, 文献[11]利用微分同胚变换改进了SEDS, 称作τ-SEDS. 该方法在保证系统稳定性的同时, 很大程度上克服了模型的精度问题. 但是增加了模型复杂度, 导致学习更加耗时, 仅限于离线学习. DS方法的快速稳定学习[12]同时考虑了估计DS的稳定性、准确性和学习速度三个因素. DS方法快速稳定学习的快速学习能力在很大程度上方便了它的实际应用, 但在稳定性和准确性方面还不够优越. 文献[13]提出了一种基于流形浸没和淹没的学习方法来解决精度与稳定性的矛盾, 该方法保证了有效提取动力学特征和稳定形式的高精度, 而且能处理交叉运动的情形, 但模型复杂度较高.
SEDS中另一个值得注意的问题是混合高斯分量个数的选取, 但是对于该问题的相关研究较少. 过多或者过少的分量个数选取都会导致模型无法有效提取演示的动力学特征, 因此该问题具有一定的研究价值. 通常用于确定有限混合模型的最佳分量的方法是贝叶斯信息准则[14], 然而这种模型选择方法存在一些明显的缺陷[15], 常常过高估计模型分量的个数, 导致过拟合. 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型, 其利用在适当数量的模型分量密度上产生后验分布来调整模型大小, 因此可以根据数据自适应聚类个数, 其中狄利克雷过程混合模型是最常用的贝叶斯非参数模型之一[16-18]. Figureoa等[19]提出了一种物理一致的贝叶斯非参数混合模型, 该方法可以自动估计最佳的混合分量个数, 并且将相似性测度融入先验信息, 提高了复现和泛化的精度. 但是该方法使用吉布斯采样计算模型的后验概率, 计算复杂度较高.
鉴于SEDS存在的上述缺陷, 本文提出了改进的SEDS (Improved SEDS, i-SEDS). 该方法有效地解决了SEDS中稳定性和精度无法兼顾的问题, 并且可以自动确定合适的分量个数. 仿真以及Franka-panda协作机器人的实验结果验证了本文方法的有效性和优越性. 本文的主要贡献有: 1)使用狄利克雷过程高斯混合模型(Dirichlet process GMM, DPGMM)代替GMM拟合演示, 并利用变分推断(Variational inference, VI)训练模型, 该模型可以根据演示数据自动确定合适的混合分量个数. 仿真分析超参数对DPGMM的影响, 为超参数的选择提供了指导意义; 2)采用参数化的李雅普诺夫函数修改了原SEDS中的稳定性约束条件, 从而提高了学习轨迹的精度, 解决了稳定性和精度难以兼顾的问题.
图 1 基于SEDS的机器人示教学习流程图
图 2 DPGMM概率结构图
图 3 DPGMM对数似然值关于超参数的变化趋势
本文分析了SEDS方法中存在的缺陷, 并给出了合理的解决方案. 首先利用DPGMM对演示数据进行拟合, 并使用变分推断求解模型参数, 推导GMR拟合初始DS. 解决了基于EM算法的GMM难以确定混合分量个数的难题. 然后利用P-QLF推导新的宽稳定性约束取代原有约束, 最后结合目标函数优化得到能精确复现的稳定DS. 在LASA数据集中验证了DPGMM超参数的性质和其推导的GMR算法的性能, 以及i-SEDS方法在不收缩轨迹上的优越性能. 最后通过Franka-panda协作机器人上的实验, 验证了本文方法在实际场景的有效性. 在未来工作中, 将降低本文方法模型的复杂度.
作者简介
金聪聪
浙江工业大学信息工程学院硕士生. 主要研究方向为人体动作识别和机器人技能学习. E-mail: jcc19960602@gmail.com
刘安东
浙江工业大学信息工程学院副教授. 主要研究方向为模型预测控制, 网络化控制系统和移动机器人. E-mail: lad@zjut.edu.cn
LIUSteven
凯泽斯劳滕工业大学电气与计算机工程系教授. 主要研究方向为机电和电力系统控制, 机器人技术, 网络控制和基于模型的故障诊断. E-mail: sliu@eit.uni-kl.de
张文安
浙江工业大学信息工程学院教授. 主要研究方向为多源信息融合和机器人技能学习. 本文通信作者. E-mail: wazhang@zjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-27 18:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社