精选
||
在多智能体目标跟踪任务中,传统的路径规划方法如人工势场虽然有效,但容易陷入局部最优,难以应对动态环境中的复杂变化。而多智能体强化学习方法虽然能优化协作策略,但训练过程往往收敛慢、计算开销大。为了解决这些问题,研究者尝试结合模仿学习与强化学习,但现有方法仍面临训练效率低和策略稳定性差的挑战。为此,来自华中师范大学和武汉大学的研究团队在 Drones 期刊发表题为“Collaborative Target Tracking Algorithm for Multi-Agent Based on MAPPO and BCTD”的研究论文,提出了一种结合行为克隆与时序差分 (Behavior Cloning with Temporal Difference, BCTD) 和多智能体近端策略优化算法 (Multi-Agent Proximal Policy Optimization, MAPPO) 的多智能体协同目标跟踪算法。该方法有效解决了局部最优和训练低效的问题,显著提高了多智能体在复杂环境中的跟踪性能和协同能力,且收敛速度较传统方法更快,任务完成效率更高。
研究方法
作者提出了一种面向多智能体协同目标跟踪的分阶段学习架构,整体采用“专家经验预训练 + 强化学习微调”的协同优化思路。该架构将人工势场生成的专家经验、模仿学习中的行为克隆与时序差分方法,以及MAPPO的有机结合,在集中训练、分布执行的框架下实现策略学习。通过先验知识引导与强化学习联合优化,该架构在保证训练稳定性的同时显著提升了学习效率与协作性能。

图1. MAPPO与行为克隆结合的算法框架图
在方法实现上,作者首先利用人工势场方法生成专家轨迹,为智能体提供合理的初始行为参考;随后引入行为克隆与时序差分相结合的BCTD机制,对策略网络和价值网络进行联合预训练,使智能体在较少交互样本下获得有效的跟踪与避障能力;在此基础上,采用MAPPO算法进行强化学习微调,通过剪切策略更新和全局奖励引导,进一步提升多智能体之间的协同决策能力。该多模块协同方法有效缓解了局部最优和训练低效问题,使智能体在复杂动态环境中实现更稳定、高效的目标跟踪。
研究结果与讨论
在三无人机一目标的跟踪场景中,分别选取了MAPPO + BCTD算法及其他一些经典的集中式训练、分布式执行算法作为对比实验,包括基于策略的MAPPO、MADDPG算法以及基于价值的QMIX算法。下图展示了不同算法在协同目标跟踪任务中的训练过程表现,其中包含平均奖励曲线和单回合完成步数曲线两类结果。
从曲线变化可以看出,MAPPO + BCTD在训练初期即可实现快速提升,平均奖励上升速度明显快于其他算法,并且在较少训练轮次后稳定收敛,收敛后的奖励水平也最高,表明其策略质量和协同效果最优;同时,其回合完成步数迅速下降并稳定在较低水平,说明智能体能够以更少的动作完成跟踪任务。相比之下,MAPPO收敛速度较慢,MADDPG和QMIX则存在波动大、收敛慢或性能受限的问题。

图2. 不同算法的对比曲线。其中a为回合长度曲线,b为平均奖励曲线
从测试效果演示图中可以看出,MAPPO + BCTD算法在跟踪任务中表现出更为流畅的无人机路径,且完成任务所需的追捕距离显著较短。相比之下,QMIX算法在面对密集障碍物时,表现出较差的障碍物躲避能力,导致无人机群无法有效规避障碍,影响了跟踪效果。而MADDPG算法则存在明显的局部最优问题,无人机群最终收敛到一种静止状态,未能有效跟踪目标,表现远低于其他算法。

图3. 不同算法的测试效果演示图:其中红色、绿色、棕色折线表示无人机轨迹,蓝线表示跟踪目标轨迹,红色方框表示跟踪目标的初始位置,紫色方框表示无人机的初始位置,黑色圆圈表示障碍物。
研究总结
本研究提出了一种创新的多智能体目标跟踪算法,结合了MAPPO和BCTD,以解决动态环境中训练效率低和局部最优的问题。提出的MAPPO + BCTD框架在跟踪效率和训练效率上明显优于现有的MAPPO、QMIX和MADDPG等算法。该方法能够快速收敛,并在保持高性能的同时有效处理协同跟踪任务,是一个可扩展且可靠的多智能体系统解决方案。未来工作将着重于在现实环境中验证该方法的有效性,并扩展到3D环境,进一步提高其在更复杂条件下的应用能力。
阅读英文原文:https://www.mdpi.com/3418282
Drones 期刊介绍
主编:Diego González-Aguilera, University of Salamanca, Spain
期刊主要涵盖无人机、无人机系统、远程驾驶航空器系统、水下无人机、无人地面载具、全自动驾驶和太空无人机等相关的最新科学技术及应用。目前期刊已被EI、Scopus和SCIE (Web of Science) 数据库收录,位于Q1分区。
2024 Impact Factor:4.8
2024 CiteScore:7.4
Time to First Decision:20.8 Days
Acceptance to Publication:2.7 Days
期刊主页:https://www.mdpi.com/journal/drones

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-10 23:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社