IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于GPR和深度强化学习的分层人机协作控制

已有 1551 次阅读 2022-10-1 16:17 |系统分类:博客资讯

引用本文

 

金哲豪, 刘安东, 俞立. 基于GPR和深度强化学习的分层人机协作控制. 自动化学报, 2022, 48(9): 2352−2360 doi: 10.16383/j.aas.c190451

Jin Zhe-Hao, Liu An-Dong, Yu Li. Hierarchical human-robot cooperative control based on GPR and deep reinforcement learning. Acta Automatica Sinica, 2022, 48(9): 2352−2360 doi: 10.16383/j.aas.c190451

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190451

 

关键词

 

深度强化学习高斯过程回归人体控制策略感知分层人机协作 

 

摘要

 

提出了一种基于高斯过程回归与深度强化学习的分层人机协作控制方法, 并以人机协作控制球杆系统为例检验该方法的高效性. 主要贡献是: 1)在模型未知的情况下, 采用深度强化学习算法设计了一种有效的非线性次优控制策略, 并将其作为顶层期望控制策略以引导分层人机协作控制过程, 解决了传统控制方法无法直接应用于模型未知人机协作场景的问题; 2)针对分层人机协作过程中人未知和随机控制策略带来的不利影响, 采用高斯过程回归拟合人体控制策略以建立机器人对人控制行为的认知模型, 在减弱该不利影响的同时提升机器人在协作过程中的主动性, 从而进一步提升协作效率; 3)利用所得认知模型和期望控制策略设计机器人末端速度的控制律, 并通过实验对比验证了所提方法的有效性.

 

文章导读

 

近年来, 随着机器人技术的高速发展, 机器人在工业生产中替代了大量的人力资源. 然而, 对于一些复杂的任务, 机器人往往无法和人类一样灵活的操作与控制. 人机协作(Human-robot collaboration, HRC)研究如何利用人的灵活性与机器人的高效性, 使机器人与人协同高效、精准地完成复杂任务, 因此受到了国内外学者的广泛关注[1].

 

人机协作按机器人在协作过程中的角色可分为人主−机器人从、机器人主−人从、人机平等3类. 第1类人机协作中机器人接收人发出的命令并执行, 主要完成一些负重类的任务. 如文献[2]中人与机器人共同搬运一个物体, 其中人决定了运动轨迹, 而机器人作为跟随者负责轨迹跟随并承担重物. 在这一类人机协作任务中的一大难点是如何将人的想法正确的传递给机器人. 文献[3-4]研究了在人与机器人共同操作一个对象时, 如何消除传递给机器人旋转与平移命令之间歧义的方法. 第2类人机协作的研究相对较少, 文献[5]将人建模为一个被动的旋转关节模型, 并且用实验证明了在机器人主导的情况下如何使用该模型将物体维持水平. 以上两类人机协作方法虽然能一定程度上结合人与机器人自身的优点, 但过于注重单方面的性能, 如人类的灵活性或机器人的高效性, 从而导致协作的整体效率不高.

 

人机平等形式的人机协作考虑人与机器人以平等的关系完成复杂任务, 这要求协作双方对对方的操作规律有一定的了解. 由于人的智能性, 对于人而言这种能力可以很方便地获得, 但机器人无法自然获取这种能力, 因此如何为机器人建立有关人的运动规律模型是非常重要的. 其中较为常用的方法假设是人的运动规律满足最小抖动模型[6], 并根据该模型预测人的运动轨迹. 文献[7]在人与机器人协作抬一根长杆的场景中, 使用加权最小二乘实时估计最小抖动模型中的参数, 并利用变种阻抗控制器使机器人跟踪最小抖动模型的预测值, 从而达到使机器人主动跟随人运动的效果. 文献[8]利用扩展卡尔曼滤波估计最小抖动模型中的参数, 并在一维的点到点运动中证明该方法的有效性. 文献[7-8]均证明了在人机协作中使用以上基于最小抖动模型的方法能在一定程度提升人的舒适度. 然而, 基于最小抖动模型生成人的运动轨迹需要事先了解人运动轨迹起止时间与起止位置, 这在一些任务中过于苛刻. 文献[9]表明最小抖动模型在一些特别的协作任务中会失效, 如一些协作任务中人的轨迹存在大量的干扰与抖动, 或者人在协作过程中多次决定改变其运动轨迹. 文献[10-11]假设人在运动过程中其加速度变化较小, 利用卡尔曼滤波器预测人下一时刻的位置, 并根据预测精度加权融合机器人主被动控制器, 从而提高机器人协作时的主动性以及协作的鲁棒性. 该方法在人机协作抬桌子的场景中得到了验证. 文献[12]使用基于与文献[10-11]相同的运动模型的扩展卡尔曼滤波预测人下一时刻的位置, 但是其使用基于强化学习的方法设计机器人的速度控制律, 并且利用扩展卡尔曼滤波的预测值减小强化学习算法搜索的动作空间范围, 提升了机器人的协调能力, 同时加强了机器人在协作任务中的主动性. 也有一些工作[13-14]将人的控制量作扰动处理.

 

以上方法均属于较为经典的人运动轨迹建模方法, 有较强的可解释性. 然而一些复杂的人机协作任务中, 人的运动轨迹往往很不规律, 如人手在3维空间中到达某些不同目标位置时形成的轨迹[15]、人在完成装配任务时的运动轨迹[16]等. 此时用概率分布去建模这些轨迹显然更加合适, 因此一些基于学习和统计的轨迹建模方法往往更加有效. 文献[15]利用高斯混合模型(Gaussian mixture model, GMM)与高斯混合回归(Gaussian mixture regression, GMR)建立人手到达不同目标位置所形成的轨迹概率分布模型, 该模型被用来提升人机协作过程中的安全性以及机器人的自主性. 文献[16]通过人拖动机器人完成装配任务的方式将人的运动轨迹转化为机器人末端的轨迹, 并利用GMM/GMR建立机器人末端的轨迹概率分布模型以达到示教学习的目的. 文献[17]利用高斯过程回归(Gaussian process regression, GPR)拟合包含人在内的球杆系统的前向传播模型, 并利用基于模型的RL算法设计次优控制律, 极大地提升了对数据的利用率. 文献[18]使用卷积神经网络学习人在完成零件装配任务时的动作与意图. 文献[19]使用触觉数据作为输入, 利用基于隐马尔科夫模型的高层控制器估计人的意图并生成相应的机器人参考轨迹, 并在机器人与人握手的场景中验证了该方法的有效性. 另外, 部分可观马尔科夫模型[20]以及贝叶斯神经网络[21]也被用来预测人下一时刻的行为.

 

然而, 上述方法几乎都是对人在一段时间内的运动轨迹进行建模, 很少有文献直接对人的控制策略建模. 与人运动轨迹建模不同, 针对人体控制策略建模主要为了预测人在遇到某个状态时可能执行的动作, 从而为机器人对人的控制行为建立更加直观的认知模型. 本文提出了一种基于GPR与深度强化学习(Deep reinforcement learning, DRL)的两层人机协作控制方法, 不仅设计了一种次优的非线性控制律, 还对人体控制策略建模, 从而降低了人为不确定因素的不利影响, 增强了协作系统的稳定性, 并解决了传统主从式人机协作中效率较低的问题. 本文以人机协作控制球杆系统为例验证该方法的可行性. 首先, 针对顶层期望控制律的设计问题, 利用深度确定性策略梯度算法(Deep deterministic policy gradients, DDPG)[22]得到了一种次优的非线性控制器. 其次, 本文使用GPR建立球杆系统的人体控制策略模型, 解决了协作过程中由人为不确定因素所导致的系统不稳定问题. 然后, 根据期望控制律和人体控制策略模型设计机器人的控制律以提升人机协作的效率. 最后, 通过实验验证了该方法的可行性与有效性.

1 人机协作控制球杆系统示意图

2 分层人机协作球杆结构示意图

3 DDPG训练过程曲线图

 

本文针对主从式人机协作效率较低的问题设计了一种基于GPR和DRL的分层人机协作控制方法. 顶层使用DRL算法在模型未知的情况下设计了一种有效的次优非线性控制策略, 并将其作为期望控制策略以引导人机协作控制过程. 底层使用GPR方法拟合人体控制策略预测模型, 为机器人建立人体行为认知模型, 从而提升机器人在协作过程中过的主动性, 提高协作效率同时降低人未知随机行为带来的不利影响. 进而, 基于期望控制策略与认知模型设计机器人的末端速度控制律. 最后由实验对比发现, 本文所提的人机协作控制方法较人主−机器人从协作控制具有更高的协作效率, 体现了本文方法的高效性.

 

本文用GPR拟合人体控制策略之后只使用了输出的均值来构建机械臂的控制律, 未利用协方差信息. 如何利用协方差信息来构建构更加具有鲁棒性的机械臂控制律是未来的一个研究要点. 另外, 如何提升在人体控制策略预测模型的预测精度也将是未来的工作之一.

 

作者简介

 

金哲豪

浙江工业大学信息工程学院硕士研究生. 主要研究方向为人机协作. E-mail: jzh839881963@163.com

 

刘安东

浙江工业大学信息工程学院讲师. 主要研究方向为模型预测控制和网络化控制系统. E-mail: lad@zjut.edu.cn

 

俞立

浙江工业大学信息工程学院教授. 主要研究方向为无线传感网络, 网络化控制系统和运动控制. 本文通信作者. E-mail: lyu@zjut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1357607.html

上一篇:吕金虎教授等:网络化知识与复杂网络(工程视角)
下一篇:基于相似历史信息迁移学习的进化优化框架
收藏 IP: 222.131.243.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 14:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部