|
伴随计算和存储能力的大幅提升,深度学习在人工智能领域获得了巨大的成功。在此背景下,产生了由深度学习和强化学习结合的深度强化学习。
本文综述了强化学习和深度强化学习方法的原理,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路。
深度强化学习
深度强化学习将深度学习技术和强化学习方法结合到一起。利用深度学习感知环境特征,利用强化学习方法求取最优策略。现阶段,深度强化学习已在围棋、游戏、导航、移动控制等领域实现突破性进展。
深度强化学习原理图
多智能体深度强化学习
多智能体深度强化学习问题是复杂的、动态的,给学习决策过程带来很大困难。本文提出学习系统的闭环控制框架,分析了多智能体深度强化学习的算法结构、环境非静态、部分可观性、基于学习的通信、算法收敛性和稳定性等问题,并且对所调查方法的优缺点和相关应用进行分析和讨论。
学习系统闭环控制框架
研究成果的意义
深度强化学习在无人驾驶、机器人控制、交通运输调度、电力系统优化、分布式传感网络以及金融和社会学等领域还有大量的应用研究。更为重要的是, 深度强化学习可能成为一种解决复杂问题的有效方法, 极大地推动人工智能和自动化技术的发展。
引用格式:孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301−1312
链接:http://www.aas.net.cn/cn/article/id/41ddf9f1-8977-45c9-b63b-e62e8f18059f
作者简介
孙长银 东南大学自动化学院教授,主要研究方向为智能控制与优化,强化学习, 神经网络, 数据驱动控制。
E-mail: cysun@seu.edu.cn
穆朝絮 天津大学电气自动化与信息工程学院教授. 主要研究方向为强化学习, 自适应学习系统, 非线性控制和优化。
E-mail: cxmu@tju.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-26 22:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社