Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱

已有 253 次阅读 2024-5-27 17:13 |个人分类:好文推荐|系统分类:论文交流

11.png

随着AlphaGo的突破,深度强化学习已成为解决序列决策问题的一项公认技术。尽管深度强化学习声名远扬,由于其试错学习机制存在样本低效率问题,这项技术难以得到广泛应用。目前已经开发了许多用于高样本效率的深度强化学习方法,例如通过环境建模、经验迁移和分布式学习等。其中,分布式深度强化学习在诸多领域中展现出了巨大的潜力,如人机博弈和智能交通等。中国科学院自动化研究所黄凯奇研究员团队总结了这一领域的发展现状,比较了经典的分布式深度强化学习方法并梳理了实现高效分布式学习的重要组成部分,包括从单玩家单智能体分布式深度强化学习到最复杂的多玩家多智能体分布式深度强化学习。此外,文章还回顾了近期发布的工具箱,这些工具箱可以帮助实现分布式深度强化学习,而不需要对它们的非分布式版本进行太多修改。通过分析其优势与劣势,团队开发并发布了一个多玩家多智能体分布式深度强化学习工具箱,并在Wargame这一拥有复杂环境的游戏中进行了验证,证明了该工具箱在复杂游戏环境中的多玩家多智能体分布式深度强化学习能力。最后,文章尝试指出其面临的挑战及未来发展趋势,希望本文的简要综述能够为对分布式深度强化学习感兴趣的研究人员提供指导或启发。相关成果已发表于《机器智能研究(英文)》2024年第3期中。

题目.png

全文下载:

Distributed Deep Reinforcement Learning: A Survey and a Multi-player Multi-agent Learning Toolbox

Qiyue Yin, Tongtong Yu, Shengqi Shen, Jun Yang, Meijing Zhao, Wancheng Ni, Kaiqi Huang, Bin Liang & Liang Wang

https://link.springer.com/article/10.1007/s11633-023-1454-4

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1454-4

全文导读

AlphaGo是一个在人机对战中击败了许多职业围棋选手的智能体,伴随着这一领域的重大突破,深度强化学习(DRL)引起了大多数研究人员的关注,并成为解决序列决策问题的一项公认技术。人们已经开发出多种算法来解决DRL与实际应用之间的种种问题,例如探索与利用困境、低样本效率,以及多智能体之间的合作与竞争。在所有这些问题中,低样本效率是最受诟病的,这源于DRL的试错学习机制,导致需要大量的交互数据完成学习。

为了缓解低样本效率问题,学界在若干研究方向上进行了大量的探索。例如,基于模型的深度强化学习可以构建环境模型来生成假想轨迹,以帮助减少与环境的实际交互次数。迁移强化学习从源任务中挖掘共享的技能、角色或模式,然后利用获取的知识为目标任务中的强化学习进行加速。近年来,分布式机器学习技术在计算机视觉和自然语言处理领域获得了广泛的应用,分布式深度强化学习(DDRL)以此为基础获得了较多的发展,并展现了能够训练出非常成功的智能体的潜力,例如Suphx、OpenAI Five和AlphaStar。

图1.png

一般来说,训练DRL智能体包括两个主要部分,即拉取策略网络参数与环境进行交互以生成数据,以及通过消耗数据来更新策略网络参数。这种结构化模式使得分布式实现DRL成为可能,且已涌现出了许多DDRL算法。例如,通用强化学习架构,可能首个提出的DDRL架构,它将训练系统分为四个组成部分,即参数服务器,参数学习器,执行器和回放缓冲区,该方法启发了更多成功的数据高效分布式深度强化学习架构的发展。学界最近提出的SEEDRL,作为IMPALA的改进版本,据称它能够每秒产生和消耗百万帧数据,在此基础上,AlphaStar通过44天(192个v3 TPU + 12个128核心TPU, 1800个CPU)的训练,成功击败了专业的人类玩家。

为了使分布式修改DRL能够使用多台机器开展训练,研究人员需要解决机器通信和分布式存储等工程问题。幸运的是,已经有多个工具箱被开发并发布出来,得益于此,将DRL代码修改为分布式版本通常只需作出少量的代码修改,这在很大程度上促进了DDRL的发展。例如,Uber发布的Horovod就充分利用了全局规约(ring allreduce)技术,与单GPU版本相比,只需增加几行代码,便可方便地使用多个GPU为训练进行加速。Ray是UC Berkeley RISELab发布的分布机器学习框架,并为DDRL提供了RLlib,通过强化学习抽象与算法库提供高效的DDRL训练。

鉴于DDRL的巨大进步,有必要对DDRL技术的发展历程进行梳理,总结其面临的挑战和机遇,为未来的研究提供线索。最近,Samsami和Alimadad对DDRL进行了简要回顾,但他们的目标是构建单智能体分布式强化学习框架,而缺乏对更具挑战性的多玩家多智能体DDRL的研究。Czech也对分布式强化学习方法作出了简要综述,但只介绍了几种经典算法,而缺乏对关键技术、技术之间的对比和所存在问题的探讨。与以往的综述不同,本文旨在提供一个更全面的综述。希望通过研究实现高效分布式学习的重要组成部分,来提供一种新的分类方法。本文将对比单玩家单智能体DDRL到最复杂的多玩家多智能体DDRL的经典分布式深度强化学习方法,希望能通过这种对比研究为初学者提供指引,并总结未来研究中可能遇到的挑战和机遇。

图2.png

本文的其余部分组织如下。第2节简要介绍了DRL的背景、分布式学习和典型的DDRL测试平台。第3节介绍基于DRL训练框架和参与的玩家和代理数量为依据凝练的DDRL的分类体系。第4节比较了当前的DDRL工具箱,这些工具箱有助于实现高效的DDRL。第5节介绍了一个新的多玩家多智能体DDRL工具箱,该工具箱为复杂博弈提供了一个有用的工具。第6节总结了DDRL面临的主要挑战和机遇,希望对未来的研究有所启发。最后,在第7部分对本文进行总结。

作者.png

全文下载:

Distributed Deep Reinforcement Learning: A Survey and a Multi-player Multi-agent Learning Toolbox

Qiyue Yin, Tongtong Yu, Shengqi Shen, Jun Yang, Meijing Zhao, Wancheng Ni, Kaiqi Huang, Bin Liang & Liang Wang

https://link.springer.com/article/10.1007/s11633-023-1454-4

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1454-4

BibTex:

@Article {MIR-2022-12-400,

author={Qiyue Yin, Tongtong Yu, Shengqi Shen, Jun Yang, Meijing Zhao, Wancheng Ni, Kaiqi Huang, Bin Liang, Liang Wang },

journal={Machine Intelligence Research},

title={Distributed Deep Reinforcement Learning: A Survey and a Multi-player Multi-agent Learning Toolbox},

year={2024},

volume={21},

issue={3},

pages={411-430},

doi={10.1007/s11633-023-1454-4}}

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyIAAI.aspx#  

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值达8.4,在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%。

往期目录

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...

2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)

2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......

2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 

2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调

2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 

2022年第6期 | 因果推理、视觉表征学习、视频息肉分割...

2022年第5期 | 重磅专题:类脑机器学习

2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等

2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中国科学院自动化所等团队

2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中国科学院自动化所等团队

主编谭铁牛院士寄语, MIR第一期正式出版!

好文推荐

约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法

专题综述 | 大语言模型中的知识生命周期

精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战

欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用

金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测

专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战

下载量TOP好文 | 人工智能领域高下载文章集锦 (2022-2023年)

引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年)

综述 | 清华张学工教授: 肺癌影像组学中的机器学习

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪

贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习

乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)

南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器

上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法

西电公茂果团队 | 综述: 多模态数据的联邦学习

高文院士团队 | 综述: 大规模多模态预训练模型

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法

南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法

ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)

Luc Van Gool团队 | 深度学习视角下的视频息肉分割

专题综述 | 高效的视觉识别: 最新进展及类脑方法综述

北大黄铁军团队 | 专题综述:视觉信息的神经解码

专题综述 | 迈向脑启发计算机视觉的新范式

专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题

戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络

ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战

华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算

东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法

联想CTO芮勇团队 | 知识挖掘:跨领域的综述

复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换

MIR资讯

特别提醒!请认准MIR官方渠道,谨防受骗

2024年 AI 领域国际学术会议参考列表

征稿启事 | AIART 2024 Call for Papers

专题征稿 | Special Issue on Transformers for Medical Image Analysis

MIR 优秀编委 & 优秀审稿人 & 高被引论文 (2023年度)

致谢审稿人 | Machine Intelligence Research

年终喜报!MIR科技期刊世界影响力指数跻身Q1区 (含100份龙年礼包)

最新 | 2023研究前沿及热点解读 (附完整PDF)

前进20名!MIR再度跻身国际影响力TOP期刊榜单

2022影响因子发布!人工智能领域最新SCI & ESCI期刊一览

喜报 | MIR入选图像图形领域 T2级 “知名期刊”!

双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR

报喜!MIR入选2022年国际影响力TOP期刊榜单

喜报 | MIR被 ESCI 收录!

喜报 | MIR 被 EI 与 Scopus 数据库收录

屏幕截图 2024-05-07 173101.png



https://blog.sciencenet.cn/blog-749317-1435848.html

上一篇:AI最前沿 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
下一篇:复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
收藏 IP: 159.226.178.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-18 19:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部