IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

机器人运动轨迹的模仿学习综述

已有 3162 次阅读 2022-2-10 15:40 |系统分类:博客资讯

引用格式

黄艳龙, 徐德, 谭民. 机器人运动轨迹的模仿学习综述. 自动化学报, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033

(Huang Yan-Long, Xu De, Tan Min. On imitation learning of robot movement trajectories: A survey. Acta Automatica Sinica, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033)

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210033?viewType=HTML


文章简介


关键词


机器人技能学习, 模仿学习, 运动基元, 轨迹学习


摘   要


作为机器人技能学习中的一个重要分支, 模仿学习近年来在机器人系统中得到了广泛的应用. 模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中, 其思路是先从少量示教样本中提取相应的运动特征, 然后将该特征泛化到新的情形. 本文针对机器人运动轨迹的模仿学习进行综述. 首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题; 其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍; 然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题; 最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向.


引   言


机器人运动技能的模仿学习(Imitation learning, IL), 又称示教学习(Learning from demonstration, LfD)或示教编程(Programming by demonstration, PbD), 是指机器人通过学习示教样本来获得运动技能的一类算法, 其学习过程一般为从单个或少量示教轨迹中提取运动特征, 随后将该特征泛化到新的情形, 从而使得机器人具有较好的自适应性.


自1999年Schaal提出机器人模仿学习的概念之后, 模仿学习作为机器人技能学习(Robot learning)领域中的一个重要分支近年来取得了许多重要的进展. 例如, Ijspeert等提出了动态运动基元(Dynamical movement primitives, DMP), 其仅需学习单条示教轨迹即可实现点到点和周期运动的泛化. 该方法利用弹簧阻尼模型和轨迹调整项, 可以在模仿示教技能时确保泛化轨迹收敛到目标点. Khansari-Zadeh 等提出了动态系统稳定估计(Stable estimator of dynamical systems, SEDS), 该方法利用非线性求解器对多样本的高斯混合模型(Gaussian mixture model, GMM)的参数进行优化, 以使高斯混合回归(Gaussian mixture regression, GMR)对应的自治系统(即应用GMR预测状态变量对应的一阶微分, 如依据位置预测速度)满足稳定性要求. Paraschos等提出了基于高斯分布的概率运动基元(Probabilistic movement primitives, ProMP), 其应用最大似然估计对轨迹参数的概率分布进行估计, 之后依据高斯条件概率的运算对轨迹进行泛化调整. Calinon等提出了任务参数化高斯混合模型(Task-parameterized GMM, TP-GMM), 该方法将训练轨迹投影到与任务相关的局部坐标系中并对变换后的相对运动轨迹进行概率建模, 克服了GMM在机器人任务空间中泛化的局限性. Huang等提出了核化运动基元(Kernelized movement primitives, KMP), 其通过对参数化轨迹和样本轨迹之间的KL散度(Kullback-Leibler divergence)进行最小化, 以及引入核技巧(Kernel trick), 获得了非参的(Non-parametric)技能学习模型. 由于仅需要极少的样本即可实现对人类运动技能的迁移, 且无需其他先验知识或数据, 模仿学习被广泛应用于诸多领域, 如娱乐、医疗、护理和农业机器人、仿人和外骨骼机器人以及人机交互等.


在上述运动轨迹的模仿学习之外, 模仿学习还包括其他的一些研究方向, 如行为复现(Behaviour cloning, BC)、直接策略学习(Direct policy learning, DPL)和逆强化学习(Inverse reinforcement learning, IRL). BC和DPL在实质上可以理解为监督学习, 即学习示教样本中输入和输出的函数关系. 两者的区别是DPL在BC的基础上引入人类的交互反馈, 从而改进BC在长期规划中的不足, 特别是当训练和测试状态的概率分布存在显著差异的情形. IRL假设训练样本中隐含的策略(Policy)在某种未知奖励函数(Reward function)下是最优的, 进而对奖励函数的参数进行优化, 最终在最佳奖励函数下应用强化学习(Reinforcement learning, RL) 可求得该隐含的最优策略.


由于篇幅的限制, 本文仅针对机器人运动轨迹的模仿学习进行综述和讨论. 需要指出的是本文所讨论的模仿学习算法和BC、DPL、IRL存在着一定的差异. BC、DPL和IRL主要侧重解决马尔科夫决策过程(Markov decision process, MDP)中的决策问题, 其中一个主要的特点是智能体(Agent)与环境存在交互且任意时刻的交互都会影响MDP下一时刻的状态, 这一过程常被描述为状态转换(State transition). 轨迹的模仿学习侧重对运动轨迹的规划, 其输入通常为时间或其他无环境交互影响的状态. 另外, 本文中涉及的一些算法如GMR和高斯过程(Gaussian process, GP)等可以划归到BC之中, 但考虑到这些方法的应用对象也包括机器人的轨迹学习, 因此我们仍将对其进行分析讨论.


图1.jpg

图1  KMP在粉刷任务中的应用


图2.jpg

图2  KMP在人机交互中的应用



相关文章


[1]  刘乃军, 鲁涛, 蔡莹皓, 王硕. 机器人操作技能学习方法综述. 自动化学报, 2019, 45(3): 458-470. doi: 10.16383/j.aas.c180076

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180076?viewType=HTML


[2]  秦方博, 徐德. 机器人操作技能模型综述. 自动化学报, 2019, 45(8): 1401-1418. doi: 10.16383/j.aas.c180836

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180836?viewType=HTML


[3]  刘成菊, 耿烷东, 张长柱, 陈启军. 基于自学习中枢模式发生器的仿人机器人适应性行走控制. 自动化学报, 2021, 47(9): 2170−2181. doi: 10.16383/j.aas.c190087 

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190087?viewType=HTML


[4]  吴晓光, 刘绍维, 杨磊, 邓文强, 贾哲恒. 基于深度强化学习的双足机器人斜坡步态控制方法[J]. 自动化学报, 2021, 47(8): 1976-1987. doi: 10.16383/j.aas.c190547

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190547?viewType=HTML


[5]  郭俊锋, 李育亮. 基于学习字典的机器人图像稀疏表示方法[J]. 自动化学报, 2020, 46(4): 820-830. doi: 10.16383/j.aas.2018.c170352

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170352?viewType=HTML


[6]  姜涛, 崔海华, 程筱胜, 田威. 基于深度学习初始位姿估计的机器人摄影测量视点规划[J]. 自动化学报. doi: 10.16383/j.aas.c200255

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200255?viewType=HTML


[7]  金聪聪, 刘安东, StevenLiu, 张文安. 基于改进动态系统稳定估计器的机器人技能学习方法[J]. 自动化学报. doi: 10.16383/j.aas.c200341

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200341?viewType=HTML


[8]  仲训杲, 徐敏, 仲训昱, 彭侠夫. 基于多模特征深度学习的机器人抓取判别方法[J]. 自动化学报, 2016, 42(7): 1022-1029. doi: 10.16383/j.aas.2016.c150661

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150661?viewType=HTML


[9]  柯文德, 彭志平, 蔡则苏, 朴松昊, 陈珂. 仿人机器人相似性运动轨迹跟踪控制研究[J]. 自动化学报, 2014, 40(11): 2404-2413. doi: 10.3724/SP.J.1004.2014.02404

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02404?viewType=HTML


[10]  王丽佳, 贾松敏, 李秀智, 王爽. 基于改进在线多示例学习算法的机器人目标跟踪[J]. 自动化学报, 2014, 40(12): 2916-2925. doi: 10.3724/SP.J.1004.2014.02916

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02916?viewType=HTML


[11]  戴丽珍, 杨刚, 阮晓钢. 基于AOCA仿生学习模型的两轮机器人自主平衡学习研究[J]. 自动化学报, 2014, 40(9): 1951-1957. doi: 10.3724/SP.J.1004.2014.01951

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01951?viewType=HTML


[12]  吴玉香, 王聪. 基于确定学习的机器人任务空间自适应神经网络控制[J]. 自动化学报, 2013, 39(6): 806-815. doi: 10.3724/SP.J.1004.2013.00806

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00806?viewType=HTML


[13]  班晓娟, 徐卓然, 刘浩. 模仿学习:一种新人工生命动画方法[J]. 自动化学报, 2012, 38(4): 518-524. doi: 10.3724/SP.J.1004.2012.00518

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00655?viewType=HTML


[14]  田慧慧, 苏玉鑫. 机器人系统非线性分散重复学习轨迹跟踪控制[J]. 自动化学报, 2011, 37(10): 1264-1271. doi: 10.3724/SP.J.1004.2011.01264

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1189?viewType=HTML


[15]  KHALID Shehzad, NAFTEL Andrew. 基于轨迹系数特征空间表示法的含有异常情况的自动运动学习[J]. 自动化学报, 2010, 36(5): 655-666. doi: 10.3724/SP.J.1004.2010.00655

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00655?viewType=HTML


[16]  孙明轩, 何熊熊, 陈冰玉. 时变机器人系统的重复学习控制: 一种混合学习方案[J]. 自动化学报, 2007, 33(11): 1189-1195. doi: 10.1360/aas-007-1189

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1189?viewType=HTML


[17]  谢胜利, 田森平, 谢振东. 具有n个传动器的n个关节机器人系统的学习控制方法[J]. 自动化学报, 2002, 28(2): 176-182.

http://www.aas.net.cn/cn/article/id/15531?viewType=HTML


[18]  蒋平, UNBEHAUEN Rolf. 无奇异间接迭代学习控制及其在机器人运动模仿中的应用[J]. 自动化学报, 2002, 28(6): 888-896.

http://www.aas.net.cn/cn/article/id/15595?viewType=HTML


[19]  蒋平, 陈辉堂, 王月娟. 机器人自学习控制的稳定性分析方法及其应用[J]. 自动化学报, 1997, 23(4): 462-467.

http://www.aas.net.cn/cn/article/id/17012?viewType=HTML


[20]  王耀南. 基于神经网络的机器人自学习控制器[J]. 自动化学报, 1997, 23(5): 698-702.

http://www.aas.net.cn/cn/article/id/16965?viewType=HTML


作者简介


黄艳龙

英国利兹大学计算机系助理教授. 主要研究方向为模仿学习, 强化学习和运动规划. 本文通信作者.

E-mail: y.l.huang@leeds.ac.uk


徐   德

中国科学院自动化研究所研究员. 1985 年、1990 年获得山东工业大学学士、硕士学位. 2001 年获得浙江大学博士学位. 主要研究方向为机器人视觉测量, 视觉控制, 智能控制, 视觉定位, 显微视觉, 微装配. 

E-mail: de.xu@ia.ac.cn


谭   民

中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为机器人系统和智能控制系统. 

E-mail: min.tan@ia.ac.cn




https://blog.sciencenet.cn/blog-3291369-1324752.html

上一篇:带有资源冲突的Seru在线并行调度算法
下一篇:IEEE/CAA J. Autom. Sinica致谢审稿人
收藏 IP: 159.226.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-6 10:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部