|
引用本文
王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631
Wang Xue-Song, Wang Rong-Rong, Cheng Yu-Hu. Safe reinforcement learning: A survey. Acta Automatica Sinica, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220631
关键词
安全强化学习,约束马尔科夫决策过程,学习过程,学习目标,离线强化学习
摘要
强化学习(Reinforcement learning, RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功. 然而, 许多强化学习算法仍然无法直接移植到真实物理环境中. 这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互, 从而学习最优策略. 但考虑到安全因素, 很多现实世界的应用则要求限制智能体的随机探索行为. 因此, 安全问题成为强化学习从模拟到现实的一个重要挑战. 近年来, 许多研究致力于开发安全强化学习(Safe reinforcement learning, SRL)算法, 在确保系统性能的同时满足安全约束. 本文对现有的安全强化学习算法进行全面综述, 将其归为三类: 修改学习过程、修改学习目标、离线强化学习, 并介绍了5大基准测试平台: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL. 最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用, 并给出结论与展望.
文章导读
作为一种重要的机器学习方法, 强化学习 (Reinforcement learning, RL) 采用了人类和动物学习中 “试错法” 与 “奖惩回报” 的行为心理学机制, 强调智能体在与环境的交互中学习, 利用评价性的反馈信号实现决策的优化[1]. 早期的强化学习主要依赖于人工提取特征, 难以处理复杂高维状态和动作空间下的问题. 近年来, 随着计算机硬件设备性能的提升和神经网络学习算法的发展, 深度学习由于其强大的表征能力和泛化性能受到了众多研究人员的关注[2-3]. 于是, 将深度学习与强化学习相结合就成为了解决复杂环境下感知决策问题的一个可行方案. 2016年, Google公司的研究团队DeepMind创新性地将具有感知能力的深度学习与具有决策能力的强化学习相结合, 开发的人工智能机器人AlphaGo成功击败了世界围棋冠军李世石[4], 一举掀起了深度强化学习的研究热潮. 目前, 深度强化学习在视频游戏[5]、自动驾驶[6]、机器人控制[7]、电力系统优化[8]、医疗健康[9]等领域均得到了广泛的应用.
近年来, 学术界与工业界开始逐步注重深度强化学习如何从理论研究迈向实际应用. 然而, 要实现这一阶段性的跨越还有很多工作需要完成, 其中尤为重要的一项任务就是保证决策的安全性. 安全对于许多应用至关重要, 一旦学习策略失败则可能会引发巨大灾难. 例如, 在医疗健康领域, 微创手术机器人辅助医生完成关于大脑或心脏等关键器官手术时, 必须做到精准无误, 一旦偏离原计划位置, 则将对病人造成致命危害. 再如, 自动驾驶领域, 如果智能驾驶车辆无法规避危险路障信息, 严重的话将造成车毁人亡. 因此, 不仅要关注期望回报最大化, 同时也应注重学习的安全性.
García和Fernández[10]于2015年给出了安全强化学习 (Safe reinforcement learning, SRL) 的定义: 考虑安全或风险等概念的强化学习. 具体而言, 所谓安全强化学习是指在学习或部署过程中, 在保证合理性能的同时满足一定安全约束的最大化长期回报的强化学习过程. 自2015年起, 基于此研究, 学者们提出了大量安全强化学习算法. 为此, 本文对近年来的安全强化学习进行全面综述, 围绕智能体的安全性问题, 从修改学习过程、修改学习目标以及离线强化学习三方面进行总结, 并给出了用于安全强化学习的5大基准测试平台: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL, 以及安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化以及医疗健康领域的应用. 安全强化学习中所涉及的方法、基准测试平台以及应用领域之间的关系如图1所示.
图 1 安全强化学习方法、基准测试平台与应用
本文结构如下: 第1节对安全强化学习问题进行形式化描述; 第2节对近年来的安全强化学习方法进行分类与综述; 第3节介绍5种基准测试平台; 第4节总结安全强化学习的实际应用场景; 第5节对未来研究方向进行探讨; 第6节对文章进行总结.
深度强化学习是当前机器学习领域的一个热点研究方向, 它为解决复杂的决策与控制问题提供了有效途径. 然而, 大部分强化学习方法并不能直接迁移到真实物理环境中. 传统的强化学习需要智能体不断地与环境交互并以试错的方式来收集数据, 从而获得最优策略, 但这种方式在实际应用中可能会产生巨大开销. 为此, 研究有安全保障的强化学习算法尤为重要. 本文对近年来的安全强化学习算法进行了全面综述与总结, 为研究安全强化学习方向的学者提供指导与思路. 首先对安全强化学习问题进行形式化定义, 将安全强化学习问题转化为约束马尔科夫决策过程, 并总结了安全强化学习常见的两种约束形式. 其次对安全强化学习算法进行分类与汇总, 从修改学习过程、修改学习目标以及离线强化学习三大方面进行综述. 修改学习过程是在智能体的探索过程中施加约束, 因而能同时保证训练时安全和部署时安全. 修改学习目标中拉格朗日法将原先的约束优化问题通过拉格朗日乘子的权衡转化为无约束优化问题, 但这种约束方法属于隐式约束, 在训练期间无法提供安全性保证, 而信赖域法显式地实施安全约束, 利用约束策略优化方法, 确保训练过程中智能体的安全性. 然后介绍了5种安全强化学习基准测试平台, 便于研究者进行基准测试和公平比较. 针对修改学习过程和修改学习目标类的安全强化学习方法可以使用Safety Gym、safe-control-gym和SafeRL-Kit基准测试平台, 而针对离线强化学习, 则使用D4RL和NeoRL进行测试. 最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康5大应用领域中的研究进展, 以及展望了未来研究方向. 虽然目前仍有许多问题尚未解决, 但在可预见的未来, 随着学者对安全强化学习问题研究的进一步深入, 相信安全强化学习将成为今后的一个热点话题.
作者简介
王雪松
中国矿业大学教授. 2002年获得中国矿业大学博士学位. 主要研究方向为机器学习, 模式识别. E-mail: wangxuesongcumt@163.com
王荣荣
中国矿业大学博士研究生. 2021年获得济南大学硕士学位. 主要研究方向为深度强化学习. E-mail: wangrongrong1996@126.com
程玉虎
中国矿业大学教授. 2005年获得中国科学院自动化研究所博士学位. 主要研究方向为机器学习, 智能系统. 本文通信作者. E-mail: chengyuhu@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 02:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社