CTACTT的个人博客分享 http://blog.sciencenet.cn/u/CTACTT

博文

[转载]【论文推荐】集中训练分布执行下的多智能体强化学习综述

已有 818 次阅读 2026-1-4 10:09 |个人分类:论文推荐|系统分类:博客资讯|文章来源:转载

编辑荐语

本期将给大家分享"集中训练分布执行下的多智能体强化学习综述(Review of multi-agent reinforcement learning under centralized training with decentralized execution)". 如您对本期相关内容有好的理解与建议, 欢迎评论区留言.

本文针对多智能体强化学习(MARL)中集中式训练与分布式执行(CTDE)这一核心范式, 进行了系统性综述与深刻反思. 文章不仅梳理了为应对联合动作空间“维数灾难”而发展的两大类主流方法——值函数分解与策略梯度, 更敏锐地指出该领域发展已接近瓶颈的现状: 尽管新方法频出, 但在实际性能中占据主导的仍是数年前的经典算法(如QMIX、MAPPO). 本文通过引入对“全局Q函数估计”这一核心挑战的集中剖析, 为理解算法有效性提供了新的理论视角, 并着重探讨了值函数分解方法在减少外推误差方面的潜力. 这不仅为研究者清晰地绘制了CTDE-MARL的技术脉络与演变逻辑, 其提出的批判性见解与未来方向思考, 更对突破当前性能瓶颈、推动下一代协作智能算法的发展具有重要启发价值.

本综述立意深刻、视角独特, 兼具广度与洞察力, 是深入理解多智能体强化学习CTDE范式演进、核心挑战与未来机遇的重要文献. 特别推荐给从事强化学习、多智能体系统、分布式人工智能研究的学者、工程师及高年级学生, 有助于快速把握领域关键问题并激发创新思路.

论文介绍

集中训练分布执行下的多智能体强化学习综述

Review of multi-agent reinforcement learning under centralized training with decentralized execution

李岳珩1,  谢广明1,2†

机构: 1. 北京大学 先进制造与机器人学院; 2. 北京大学 人工智能研究院

引用: 李岳珩, 谢广明. 集中训练分布执行下的多智能体强化学习综述. 控制理论与应用, 2025, 42(11): 2114 – 2124

DOI: 10.7641/CTA.2025.50009

全文链接: 

http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=CCTA250009&flag=1

摘要

近年来, 多智能体强化学习(MARL)因其在解决实际问题上的巨大潜力而逐渐成为研究的热点. 在复杂的多智能体系统中, 集中式训练与分布式执行(CTDE)框架被广泛应用. CTDE通过集中训练的方式缓解了多智能体强化学习中的非平稳性问题, 但也因此带来了新的挑战, 特别是在训练过程中需要处理所有智能体的信息, 尤其是随着智能体数量增加而呈指数级增长的联合动作空间. 本文对CTDE框架下的多智能体强化学习算法及其发展进行了选择性的回顾, 重点探讨了两大类算法: 值函数分解方法和策略梯度方法. 本文总结了这些算法在处理联合动作空间复杂性、非平稳性问题以及估计.

引言

近年来, 深度学习技术和计算资源的飞速发展推动了人工智能领域的重大突破, 不仅为诸多实际问题提供了解决方案, 还逐步应对了更为复杂和具有挑战性的任务. 深度学习的成功应用推动了传统领域的进展, 并加速了新兴领域的发展. 

在实际应用中, 许多问题可以建模为多智能体系统(multi-agent system, MAS)[1] , 其中多个智能体通过协作共同完成团队目标, 从而提升整体系统效益. 合作多智能体强化学习(multi-agent reinforcement learning, MARL)[2–3]作为一种具有巨大潜力的解决方案, 已在自动驾驶[4]、智能交通管理[5]、机器人集群协作[6–7]等领域展示了其有效性. 

然而, 随着应用场景复杂度的增加, 特别是在系统规模扩展时, MARL面临着显著挑战. 具体而言, 随着智能体数量的增加, 联合动作空间的维度呈指数级增长, 极大地考验了算法的可扩展性(scalability). 此外, 由于智能体之间通信受限, 许多多智能体系统中的智能体需要基于自身局部信息进行分布式决策, 这也增加了协作的难度.

为应对这些挑战, 集中式训练与分布式执行(centralized training with decentralized execution, CTDE)框架[8–9]被广泛采用. 该框架充分利用了强化学习训练与执行的分离特性. 在训练阶段, 所有智能体的信息集中处理, 使每个智能体能够访问其他智能体的动作、观测及全局信息; 而在执行阶段, 每个智能体根据自身的局部观测独立决策, 无需依赖其他智能体的通信. 该结构既能在训练过程中充分利用共享信息, 又能在执行阶段保持分布式决策. 

CTDE框架不仅有效利用全局信息, 还成功解决了多智能体强化学习中的非平稳性问题. 在没有集中训练的情况下, 每个智能体只能将其他智能体视为环境的一部分, 于是智能体策略的不断变化会导致环境的非平稳性, 从而影响训练的稳定性. CTDE通过集中训练确保所有智能体的策略被同时考虑, 使其在相对稳定的环境中学习. 然而, 随着智能体数量的增加, 联合动作空间的指数级增长使得算法在集中训练阶段面临更大的挑战, 尤其是在值函数估计的准确性方面. 

目前, 在CTDE框架下表现出色的算法, 大多能够较为成功地应对联合动作空间的复杂性. 一类是值函数分解方法[10–11] , 通过分解近似的动作值函数, 减少了需要估计的联合动作空间, 从而提高了学习效率, 能够更好地逼近最优策略; 另一类是传统的策略梯度方法[12–13] , 通过估计状态值函数来更新每个智能体的策略, 避免了直接处理联合动作空间的复杂性. 

然而, 现有研究缺乏一个系统的视角来全面评估CTDE框架下的MARL算法, 且算法的实际表现往往与理论性质不一致. 理论上的改进有时反而导致实际性能的下降. 从统计数据[14](图1–2)来看, 近年来该领域的方法呈现出下降趋势, 而最常用的方法, 尤其是在2023和2024年, 仍然是2018年和2021年提出的经典方法QMIX[11]和多智能体近端策略优化(multi-agent proximal policy optimization, MAPPO)[13] . 这表明该领域的发展可能已接近瓶颈期, 亟需新的视角和研究方向. 鉴于此, 本文回顾了CTDE框架下的主要MARL算法, 并提出新的分析视角, 以更深入地理解这些算法的有效性. 本文的目标是为读者提供全面深入的理解, 并为后续的算法改进和研究提供启示.

1.png

鉴于CTDE框架下的MARL算法种类繁多, 本文将重点讨论那些对理解该领域尤为重要的算法(表1), 而非涵盖所有相关算法. 具体而言, 第2节简要介绍MARL的背景设定以及强化学习(reinforcement learning, RL)[15]的基础知识; 第3节和第4节分别介绍基于值的和基于策略的MARL算法; 第5节对相关算法进行了讨论, 提出新的视角和可能分析框架; 第6节总结了全文工作.

3.png

总结与展望

集中式训练分布式执行作为多智能体强化学习中的一种重要范式, 近年来得到了广泛的关注和深入的发展. 尤其是值函数分解方法的兴起, 为基于值的强化学习在复杂的多智能体任务中提供了潜力巨大的解决方案. 本文回顾了近年来CTDE框架下的主流方法, 旨在为读者提供一个全面且深入的视角. 特别地, 本文重点讨论了算法在估计全局Q函数时所面临的挑战和影响, 提出了一些新的见解和思路. 通过分析现有算法的优缺点以及值函数分解方法在减小外推误差上的潜力, 本文为后续算法的改进和发展提供了一些有价值的思考. 希望这些讨论能够为今后多智能体强化学习领域的研究者们提供新的思路, 并推动该领域的进一步发展.

作者简介

李岳珩  博士研究生, 目前研究方向为强化学习与多智能体强化学习;

谢广明  教授, 博士生导师, 目前研究方向为仿生机器人、机器人集群与学习控制.

期刊介绍

《控制理论与应用》(Control Theory & Applications)是经国家科学技术部批准, 教育部主管, 由华南理工大学和中国科学院数学与系统科学研究院联合主办的全国性一级学术刊物, 1984年创刊, 月刊, 国内外公开发行. 《控制理论与应用》是中国科学引文数据库首批统计源期刊之一,中文核心期刊,入选中国精品科技期刊顶尖学术论文F5000项目,中国科协自动化学科领域高质量科技期刊目录以及中国科协百篇优秀科技论文遴选计划,2021年入选广东省高质量科技期刊建设项目,2022-2024年连续获得基金委资助(科技活动专项)。

期刊封面2.jpg目录2.jpg

【收录】

目前被美国《工程索引》(Ei Compendex)、SCOUPS、CSCD、美国的《化学文摘》(CA)、英国《科学文摘》(Inspec)、德国《数学文摘》、俄罗斯《文摘杂志》(AJ)、《日本科学技术振兴机构中国文献数据库》等国内外检索系统收录。

官网:https://jcta.ijournals.cn/cta_cn/ch/index.aspx

知网优先发表:https://navi.cnki.net/knavi/journals/KZLY/detail

投稿:https://jcta.ijournals.cn/cta_cn/ch/author/login.aspx

微信:控制理论与应用

视频号:控制理论与应用

科学网博客:http://blog.sciencenet.cn/u/CTACTT

小红书:控制理论与应用(ID:8742781006)

Email:aukzllyy@scut.edu.cn   

Tel:020-8711 1464

公众号二维码.jpg

欢迎扫码关注控制理论与应用公众号

【2024-2025年期刊合集】

2025年第42卷第12期

2025年第42卷第11期

2025年第42卷第10期

2025年第42卷第9期

2025年第42卷第8期

2025年第42卷第7期

2025年第42卷第6期

2025年第42卷第5期

2025年第42卷第4期

2025年第42卷第3期

2025年第42卷第2期

2025年第42卷第1期

2024年第41卷第12期

2024年第41卷第11期

2024年第41卷第10期

2024年第41卷第9期

2024年第41卷第8期(“区块链与工业4.0”专刊)

2024年第41卷第7期(“秦化淑教授90寿诞—复杂系统控制理论及其应用”专刊)

2024年第41卷第6期(“数据与模型融合的智能调度优化”专刊)

2024年第41卷第5期

2024年第41卷第4期

2024年第41卷第3期(“人工智能驱动的过程工业自动化与智能化”专刊)

2024年第41卷第2期

2024年第41卷第1期



https://blog.sciencenet.cn/blog-3633987-1517031.html

上一篇:《控制理论与应用》2025年第12期目次速览
下一篇:[转载]【论文推荐】 基于TCN-LSTM-Attention的建筑热动态与能耗预测
收藏 IP: 218.192.172.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-7 06:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部