IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

面向无人艇的T-DQN智能避障算法研究

已有 1605 次阅读 2023-8-29 15:59 |系统分类:博客资讯

引用本文

 

周治国, 余思雨, 于家宝, 段俊伟, 陈龙, 陈俊龙. 面向无人艇的T-DQN智能避障算法研究. 自动化学报, 2023, 49(8): 16451655 doi: 10.16383/j.aas.c210080

Zhou Zhi-Guo, Yu Si-Yu, Yu Jia-Bao, Duan Jun-Wei, Chen Long, Chen Jun-Long. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle. Acta Automatica Sinica, 2023, 49(8): 16451655 doi: 10.16383/j.aas.c210080

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210080

 

关键词

 

无人艇,强化学习,智能避障,深度Q网络 

 

摘要

 

无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统, 其自主决策能力尤为关键. 由于水面运动环境较为开阔, 传统避障决策算法难以在量化规则下自主规划最优路线, 而一般强化学习方法在大范围复杂环境下难以快速收敛. 针对这些问题, 提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN), 在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息, 并设定经验回放池阈值加速算法的收敛. 通过在不同尺度的栅格环境中进行实验仿真, 实验结果表明, T-DQN算法能快速地收敛到最优路径, 其整体收敛步数相比Q-learning算法和DQN算法, 分别减少69.1%24.8%, 引入的阈值筛选机制使整体收敛步数降低41.1%. Unity 3D强化学习仿真平台, 验证了复杂地图场景下的避障任务完成情况, 实验结果表明, 该算法能实现无人艇的精细化避障和智能安全行驶.

 

文章导读

 

水面无人艇(Unmanned surface vehicle, USV)是一种无人驾驶的水面航行器, 因其智能程度高、隐藏性高、移动能力强等特点[1-3], 成为执行搜救、侦察、监测、舰艇护航等任务的重要平台[4]. 为满足多种任务的需求, USV的研究与设计主要包括多源信息融合、目标识别跟踪、自主路径规划等方面[5-7]. 其中, 自主决策作为衡量无人艇智能化程度的重要标准之一, 要求无人艇在静态水面环境中, 能够按照最优规划从起点行驶到终点, 同时在遇到未知危险时能够迅速地避开障碍物[3]. 避障决策包括利用已知环境的全局路径规划和遇到不明障碍物的局部避障两个部分, 其中针对全局路径规划已有较为成熟的算法(A*[8]Dijkstra[9]), 这些算法大多适用于无障碍或稀疏障碍等简单静态海洋环境[10]. 然而, 无人艇航行所在的环境往往存在不可预测的障碍物, 因此局部路径规划依赖于传感器获取局部环境信息, 需要重点关注面对未知环境时的适应能力和算法的避障能力. 强化学习方法在应对未知障碍物时有较好的自适应性能, 将强化学习与深度学习相结合得到的深度强化学习, 适用于处理制定决策和运动规划. 与传统避障方法相比, 基于深度强化学习的局部避障方法具有更高的智能性, 对未知环境有更强的适应性, 因此成为近年来的研究热点, 并逐渐在机器人控制和运动规划中得到广泛应用[11-12].

 

强化学习是机器学习方法中的一种重要方法, 主要由智能体、环境、动作、状态和奖励5个部分组成[13-14]. 智能体与环境不断进行交互, 其核心在于获得环境的观测值, 根据策略采取一系列动作并得到相应的奖励. 经过接连不断的交互过程, 智能体最大限度地积累奖励, 并学会在环境中采取最佳决策完成任务. 在路径规划问题中, 强化学习表现出一定程度的优越性[15-17]. Chen[18]提出一种基于深度强化学习的分布式避障算法, 显著地减少智能体完成避障任务抵达目的地的时间; Tai[19]提出一种深度强化学习运动规划算法, 无需借助地图信息, 利用深度确定性策略梯度算法的异步版本让智能体学习导航避障; Zhang[20]提出一种基于后继特征的避障算法, 学习将先验知识从已完成的避障导航任务迁移到新的实例中, 减少试错成本. 针对深度Q网络(Deep Q network, DQN)学习算法的变式, Matthew[21]用长短期记忆网络(Long short-term memory, LSTM)替换深度Q网络第1个后卷积全连层, 提出深度循环Q网络(Deep recurrent Q network, DRQN), 解决DQN经验池内存限制和部分可观测马尔科夫决策过程(Markov decision processes, MDP)中难以获得全部可观测信息的问题. Liu[22]DRQN和深度双Q网络(Double DQN, DDQN)两种算法用于路径规划, 通过对比实验可以看出, 尽管DRQN算法具有更好的决策和路径选择能力, 但因为消耗更多的存储空间和计算资源, 收敛时间更长. Wang[23]利用LSTM保存历史状态, 并结合DQN学习车道合并驾驶策略, 融合历史驾驶经验和交互驾驶行为的影响, 有助于智能体适应自动驾驶中复杂变道场景. Deshpande[24]LSTMDQN与比例积分微分控制器纵向控制器结合, 测试算法在拥挤城市环境无信号交叉路口的自动驾驶任务完成性能, 验证算法能辅助实现安全驾驶利用LSTM保存历史状态并结合DQN学习车道合并驾驶策略. 该方法融合历史驾驶经验和交互驾驶行为的影响, 有助于智能体适应自动驾驶中复杂变道场景. Peixoto[25]采用结合LSTMDQN算法实现无人车辆驾驶, 基于过往训练状态感知实现车辆在复杂环境中的自主决策. 通过对比实验可以看出, 相同的训练次数, LSTM + DQN成功率达到5.12%, DQN只有1.47%, 说明DRQN算法在部分可观测环境中的自适应性更强.

 

针对本文讨论的无人艇避障, 传统强化学习算法和现有的研究工作未能充分考虑无人艇相比其他无人系统不同的感知范围和运动特性, 存在以下问题: 1)感知范围决定仿真粒度, 一般强化学习避障算法并未考虑到局部避障与局部感知区域的适配性, 因此仿真粒度设置存在一些不合理之处; 2)一般强化学习算法泛化能力较差, 在面对未知环境时, 需要消耗大量时间重新规划, 在高维度空间下进行解算时容易陷入瓶颈, 因此对新环境的泛化能力还需要进一步提高.

 

本文提出一种基于阈值的深度Q网络(Thres-hold deep Q network, T-DQN)算法, 通过增加LSTM网络保存训练信息, 并设定合理的阈值筛选经验回放样本, 加速避障算法的收敛. 本文对航行决策过程进行详细描述, 仿真实验验证了本文算法的有效性. 根据无人艇实际感知范围, 设置不同的栅格大小和仿真粒度, 并进行对比仿真. 同时在Unity 3D仿真平台中进行实验验证, 考察复杂地图场景下的避障任务完成情况. 实验结果表明, 该算法能辅助实现无人艇的精细化避障和智能安全行驶, 且仿真具有较好的真实度和视觉效果.

 1  T-DQN算法架构图

 2  LSTM网络结构图

 3  加入LSTM后的网络层结构

 

本文针对水面环境航行决策问题, 提出一种适用于水面无人艇的避障决策新方法. 在深度强化学习算法DQN的基础上, 引入LSTM网络, 设置阈值筛选经验回放池内的样本, 提出一种基于阈值的T-DQN方法. 同时, 有针对性地设置马尔科夫决策过程中状态空间、动作空间和奖励函数, 并将算法分别置于三种不同大小的栅格地图中进行针对性训练. 实验结果表明, 本文提出的T-DQN算法能快速地收敛到最优路径, 其整体收敛步数相比Q-learning算法和DQN算法, 分别减少69.1%24.8%, 相比LSTM + DQN算法, 减少41.1%. 在本课题组研发的基于Unity 3D构建的Spaitlab-unity平台对算法的有效性进行验证, 该算法能发出运动指令控制无人艇在水面环境上运动, 对陌生环境具有一定适应能力, 在复杂未知环境中的表现得到了有效验证.

 

作者简介

 

周治国

北京理工大学信息与电子学院副教授. 主要研究方向为智能无人系统, 信息感知与导航和机器学习. 本文通信作者. E-mail: zhiguozhou@bit.edu.cn

 

余思雨

北京理工大学信息与电子学院硕士研究生. 主要研究方向为智能无人系统信息感知与导航. E-mail: yusiyu3408@163.com

 

于家宝

北京理工大学信息与电子学院硕士研究生. 主要研究方向为智能无人系统信息感知与导航. E-mail: 3120200722@bit.edu.cn

 

段俊伟

暨南大学信息科学技术学院讲师. 主要研究方向为图像融合, 机器学习和计算智能. E-mail: jwduan@jnu.edu.cn

 

陈龙

澳门大学科技学院副教授. 主要研究方向为计算智能, 贝叶斯方法和机器学习. E-mail: longchen@um.edu.mo

 

陈俊龙

华南理工大学计算机科学与工程学院教授. 主要研究方向为控制论, 智能系统和计算智能. E-mail: philipchen@scut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1400739.html

上一篇:基于静−动态特性协同感知的复杂工业过程运行状态评价
下一篇:数据驱动的间歇低氧训练贝叶斯优化决策方法
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-14 17:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部