|
引用本文
吴健发, 王宏伦, 王延祥, 刘一恒. 无人机反应式扰动流体路径规划. 自动化学报, 2023, 49(2): 272−287 doi: 10.16383/j.aas.c210231
Wu Jian-Fa, Wang Hong-Lun, Wang Yan-Xiang, Liu Yi-Heng. UAV reactive interfered fluid path planning. Acta Automatica Sinica, 2023, 49(2): 272−287 doi: 10.16383/j.aas.c210231
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210231
关键词
无人机,反应式路径规划,受约束扰动流体动态系统,深度强化学习,训练环境
摘要
针对复杂三维障碍环境, 提出一种基于深度强化学习的无人机(Unmanned aerial vehicles, UAV) 反应式扰动流体路径规划架构. 该架构以一种受约束扰动流体动态系统算法作为路径规划的基本方法, 根据无人机与各障碍的相对状态以及障碍物类型, 通过经深度确定性策略梯度算法训练得到的动作网络在线生成对应障碍的反应系数和方向系数, 继而可计算相应的总和扰动矩阵并以此修正无人机的飞行路径, 实现反应式避障. 此外, 还研究了与所提路径规划方法相适配的深度强化学习训练环境规范性建模方法. 仿真结果表明, 在路径质量大致相同的情况下, 该方法在实时性方面明显优于基于预测控制的在线路径规划方法.
文章导读
目前, 随着无人机(Unmanned aerial vehicles, UAV)的作业空域, 由中高空向低空乃至超低空不断拓展, 其所面临的障碍环境也日趋复杂, 具体表现为低空障碍具有密集性、动态性和不确定性的特点[1]. 复杂障碍环境对无人机的飞行安全带来了极大的挑战, 同时也对无人机的自主控制能力提出了更高要求. 作为无人机自主控制能力的关键技术, 在线路径规划方法受到广泛关注, 从决策行为角度看, 可大致分为慎思式和反应式两类方法[2-3].
慎思式在线路径规划方法主要基于全局静态障碍信息和对动态障碍的状态预测信息进行决策, 其代表性方法为基于预测控制的路径规划方法, 即预测有限步长内的障碍物状态, 基于此优化该时间段内的控制序列, 最后执行当前时刻所需控制输入并以此类推, 例如Lindqvist等[4]和茹常剑等[5]采用非线性模型预测控制方法直接产生规避机动的控制输入; Luo等[6]和Wu等[7]将势场类路径规划方法与滚动时域控制策略(Receding horizon control, RHC)相结合, 通过RHC策略在线优化势场类方法的参数, 以应对复杂多变的障碍环境. 这类方法虽然能取得较好的规划效果, 但由于障碍状态预测和串行优化控制序列两大过程需要耗费较长的计算时间, 因此可能无法满足复杂环境下规划的实时性要求.
与慎思式方法相反, 反应式在线路径规划方法一般不需要对未来障碍状态进行预测, 而是基于当前或过去检测到的障碍与规划主体间相对状态进行快速决策, 例如Steiner等[3]提出一种基于开放扇区的无人机反应性避障路径规划方法, 该方法根据机载激光雷达的二维扫描信息和对无人机过去机动行为的短期记忆信息, 设计了一系列规避规则; 魏瑞轩等[8]借鉴生物条件反射机制, 提出基于Skinner理论的无人机反应式应急规避方法; Hebecker等[9]将无人机传感器视场离散化为网格地图, 然后基于障碍在网格地图中的分布情况采用波前算法实现局部三维路径规划.
近年来, 以深度强化学习为代表的新一代人工智能方法广泛应用于各类复杂系统的优化控制问题, 此类机器学习方法具有如下优点[10-12]: 1)不依赖于环境模型和先验知识, 仅需要通过与环境进行交互即可实现策略的升级; 2)所引入的深度神经网络具有强大的非线性逼近能力, 可以有效应对高维连续状态−动作空间下的优化控制问题(三维复杂障碍环境下无人机避障路径规划的本质); 3)由于深度强化学习得到的策略在使用时只需进行一个神经网络的前向传播过程, 非常适用于具有高实时性需求的决策任务. 基于上述优点, 部分学者对其在反应式路径规划中的应用进行了一定的探索, 例如Guo等[13]提出一种面向离散动作空间的分层Q学习反应式路径规划方法, 可用于动态威胁环境下的无人机自主导航; Tai等[14]、Wang等[15-16]和Hu等[17]则针对连续动作空间, 基于深度确定性策略梯度算法(Deep deterministic policy gradient, DDPG)(也是应用最为广泛的连续型深度强化学习方法之一)及其衍生算法设计反应式路径规划方法. 这些方法均实现了良好的避障效果, 但仍有如下两个问题值得进一步进行深入研究:
1)深度强化学习本质上属于一种通用型的决策方法, 在处理路径规划这种特定问题时可能难以兼顾安全性和路径质量. 从上述文献的仿真结果可以看出, 直接使用深度强化学习方法生成控制输入以规划路径虽然能确保无人机快速安全避障, 但路径的平滑性并不理想, 不利于底层控制器精确跟踪. 如果能将深度强化学习与经典路径规划方法有机结合, 分别发挥二者在优化速度和路径规划质量方面的优势, 则有望取得更好的规划效果. 然而, 如何设计此类反应式路径规划架构, 使其能有效应对复杂的障碍环境(如动静态障碍并发、多障碍、环境中存在不同形状尺寸的障碍等), 目前仍处于探索阶段.
2)基于深度强化学习的路径规划方法需要无人机与模拟的任务环境进行交互, 并根据环境的反馈不断更新深度神经网络的权重, 最终提取训练好的深度动作网络用于实际环境下的在线规划. 因此如何设计与所用路径规划方法相适配的模拟训练环境, 对于提升训练效率并保障动作网络在复杂障碍环境下泛化性能至关重要. 遗憾的是, 上述文献并没有对训练环境的规范性建模方法进行针对性的研究.
针对上述两个问题, 本文提出一种基于深度强化学习的无人机反应式扰动流体路径规划架构, 主要贡献如下:
1)在一种经典自然启发式路径规划方法: 扰动流体动态系统算法(Interfered fluid dynamical system, IFDS)[7, 18-20]基础上, 进一步引入无人机运动学模型和约束条件以提升规划路径的可跟踪性, 改进算法称为受约束IFDS算法(Constrained-IFDS, C-IFDS).
2)将深度强化学习中的DDPG算法与C-IFDS算法相结合, 分别发挥二者在实时性和生成路径质量方面的优势, 构建反应式路径规划架构. 该架构以C-IFDS算法为路径规划的基础方法, 根据当前各障碍与无人机的相对状态、无人机自身状态和障碍包络形状, 通过DDPG算法在线优化对应障碍的反应系数和方向系数, 继而计算相应的总和扰动矩阵修正无人机的飞行路径, 实现反应式避障.
3)提出一种与上述反应式路径规划架构相适配的强化学习训练环境规范性建模方法, 以提升训练效率.
图 1 不同反应系数和方向系数组合对规划路径的影响
图 2 所提反应式路径规划的DDPG训练机制
图 3 评价网络和动作网络结构
针对复杂障碍环境, 本文提出一种基于深度强化学习的无人机反应式扰动流体路径规划架构. 首先, 在传统IFDS方法的基础上提出C-IFDS路径规划方法作为架构中的基础规划方法, 该方法引入无人机运动学模型和约束对扰动流速进行可飞性修正; 然后, 提出面向反应式扰动流体路径规划的强化学习训练环境规范性建模方法, 以提升训练效率. 最后, 采用DDPG算法在构造的环境中训练相应的深度网络, 并利用训练好的动作网络在线优化C-IFDS的反应系数和方向系数. 仿真结果表明, 在生成路径质量大体相同的前提下, 取得了相较于传统RHC方法更快的规划速度.
今后的研究工作主要集中在以下几个方面:
1)本文架构中的深度强化学习方法可以进一步从以下两个角度改进: a)本文通过对奖励函数加权求和, 从而将路径规划问题转化为一个单目标优化问题, 尽管这种思路比较简单直接, 但也存在着权值不易确定的缺点, 因此在未来可考虑在本文路径规划架构的基础上进一步引入多目标强化学习方法[25-26]; b)理论上, 其他连续型深度强化学习方法亦可应用于本文架构, 因此未来可将更先进的强化学习方法(如SAC[27]和TD3[28]等)与反应式路径规划相结合, 并与本文方法进行对比测试.
2)将本文架构拓展应用于更多复杂飞行任务中, 例如目标跟踪[18-19]、边界监视[20]和编队避障[29]等, 同时适时开展相应的实物验证工作.
3)与多数无人机路径规划研究[3-6, 8-9, 13, 15-19]相同, 本文架构在规划时只引入了如式(1)、式(2)所示的无人机运动学模型和约束, 而并未考虑更为复杂的无人机六自由度非线性动力学模型和约束, 以及内环控制器的响应特性, 这可能存在着规划指令因无法被控制器及时精确跟踪导致无人机与密集障碍发生碰撞的风险. 因此在未来应考虑在本文路径规划架构下, 将无人机规划−控制−模型所组成的闭环系统引入所构建的强化学习训练环境中, 实现考虑控制器和动力学特性的无人机状态转移, 并据此计算相应的奖励函数.
作者简介
吴健发
北京控制工程研究所博士后. 主要研究方向为飞行器智能决策与协同控制. E-mail: jianfa_wu@163.com
王宏伦
北京航空航天大学自动化科学与电气工程学院教授. 主要研究方向为飞行器自主与智能控制, 抗扰动控制, 无人系统路径规划与精确跟踪. 本文通信作者. E-mail: hl_wang_2002@126.com
王延祥
北京航空航天大学自动化科学与电气工程学院博士研究生. 主要研究方向为无人机路径规划, 空中加油精准引导与控制. E-mail: wyxjy51968@163.com
刘一恒
北京航空航天大学自动化科学与电气工程学院博士研究生. 主要研究方向为飞行控制, 轨迹规划和机器学习. E-mail: 18810010709@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 00:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社