IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于优先采样模型的离线强化学习

已有 690 次阅读 2024-2-7 16:57 |系统分类:博客资讯

引用本文

 

顾扬, 程玉虎, 王雪松. 基于优先采样模型的离线强化学习. 自动化学报, 2024, 50(1): 143153 doi: 10.16383/j.aas.c230019

Gu Yang, Cheng Yu-Hu, Wang Xue-Song. Offline reinforcement learning based on prioritized sampling model. Acta Automatica Sinica, 2024, 50(1): 143153 doi: 10.16383/j.aas.c230019

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230019

 

关键词

 

离线强化学习,优先采样模型,时序差分误差,鞅,批约束深度Q学习 

 

摘要

 

离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近, 但离线经验缓存的数据分布往往会直接影响习得策略的质量. 通过优化采样模型来改善强化学习智能体的训练效果, 提出两种离线优先采样模型: 基于时序差分误差的采样模型和基于鞅的采样模型. 基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据, 通过估计更准确的值函数来应对可能出现的分布外状态. 基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本, 减少负样本对值函数迭代的影响. 进一步, 将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning, BCQ)相结合, 提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ. D4RLTorcs数据集上的实验结果表明: 所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据, 获得更高的回报.

 

文章导读

 

由于兼具了强化学习优良的决策能力以及深度学习强大的表征能力和泛化性能, 深度强化学习已成为解决复杂环境下感知决策问题的一个可行方案[1]. 近年来, 深度强化学习已经在机器人控制[2]、电力系统优化[3]、网络安全[4]、视频游戏[5-6]、医疗健康[7]、自动驾驶[8-9]等领域取得了成功应用.

 

随着深度强化学习理论和方法的发展, 学者们尝试开发智能体去处理一些数据采集困难, 对硬件设备安全构成威胁的学习任务[10]. 2020年之前, 参考机器学习中批量学习的方法, 学者们提出了一种无需进行探索、经验缓存固定的深度强化学习, 并命名为批强化学习[11]. 2020年后, 随着批强化学习热度的提升, Levine[10]将此类算法重新命名为离线强化学习. 离线强化学习有着行为策略下固定大小的经验缓存, 可以避免在线探索带来的环境噪声和危险行为[12]. 一方面, 离线强化学习可以从在线强化学习的经典算法中汲取灵感[13], 有较长远的发展前景. 另一方面, 离线强化学习中, 大部分算法通过引入模仿学习[14]来减小分布偏移, 降低了强化学习与其他机器学习方法之间的壁垒. 但一个值得关注的问题是: 习得策略下, 智能体对离线经验缓存分布之外的(Out-of-distribution, OOD)状态评估会包含误差, 从而表现并不理想.

 

针对这一问题, 研究者们提出了许多解决方案. Fujimoto[15]率先提出了第一个能够从任意批数据(离线数据)中学习而无需探索的批约束深度Q学习(Batch-constrained deep Q-learning, BCQ). BCQ采用Q学习技术, 在选取最大化Q值对应的动作时, 希望只考虑实际出现在离线数据集中的状态动作对, 而不考虑分布外的动作. 为此, Kumar[16]利用变分自编码器来生成与离线数据集分布相近的动作, 并结合一个扰动网络模型对生成的动作进行调优, 从而使动作具有多样性. 测试阶段, 在生成的动作空间中选择使Q值最大的那些动作. 由于BCQ不涉及对未知状态动作对的考虑, 因此不会在策略与值函数上引入额外的偏差, 同时, 动作与值函数分开学习, 也避免了误差累积. 然而, Kumar[16]指出: 由于BCQ对策略施加的约束较强, 因此当离线数据集质量较差时, BCQ只能有限地改善策略性能. 进一步, Kumar[16]分析了分布偏移导致的自举误差, 提出了使用两个独立值函数结构的自举误差累积消减算法(Bootstrapping error accumulation reduction, BEAR), 利用支持集匹配的思想来防止自举误差累积. 此外, BEAR通过约束当前策略与行为策略之间的最大均值差异(Maximum mean discrepancy, MMD)[17]来使习得策略尽可能接近行为策略以缓解分布偏移问题. 然而, 由于需要计算MMD距离, BEAR的计算代价较大. Jaques[18]通过减小习得策略和行为策略之间的KL散度, 使学习到的策略逼近行为策略. 与之类似, Maran[19]使用Wasserstein距离来描述策略间差异, 将减小策略分布间的Wasserstein距离作为正则化项添加到优化目标中. 为评估不同行为策略正则化项的重要性, Wu[20]引入一个通用的算法框架, 称为行为正则化Actor-Critic. 该框架涵盖了BCQBEAR, 同时提供了多种实际选择方案, 使研究人员能够以模块化的方式比较不同变体的性能. 进一步, Wu[20]提出两类正则化方法: BRAC-vBRAC-p, 前者是对值函数进行正则化, 后者则是对策略进行正则化. 值得注意的是, 值函数正则化虽然可以提高OOD状态评估的准确程度, 但也会在值函数更新过程中增加噪声, 使习得策略难以收敛. 策略正则化虽然能有效降低分布偏移且提高习得策略的稳定性, 但会增大习得策略陷入局部最优的概率.

 

上述离线强化学习方法都倾向于通过降低分布偏移来提高习得策略的质量, 但忽视了离线数据集质量对离线强化学习性能的影响. 类似的, 在在线强化学习方法中, 经验的好坏对智能体的训练起到非常重要的作用. 因此, 如何让智能体高效地选择样本也是提高强化学习算法性能的一个有效措施. Schaul[21]在在线强化学习(深度Q网络)中采用了优先经验回放技术, 主要思路为: 通过时序差分(Temporal difference, TD)误差估计经验池(经验缓存区)中样本的重要程度并赋予样本不同的优先级, 使那些在训练过程中对智能体更加重要的样本更容易被选择. Horgan[22]在优先经验回放技术的基础上提出了分布式经验池的思想, 进一步提升了强化学习智能体在复杂环境中的表现.

 

离线经验缓存的质量主要会通过以下两个方面来影响离线强化学习的训练: 1) 行为策略下生成的离线经验缓存中会包含折扣回报低于平均水平的失误经验, 这些经验所占比例往往不高. 因此, 训练过程中智能体容易忽视失误经验, 无法在对应的场景下做出最优的行为. 2) 离线经验缓存中的样本根据其是否有利于策略优化可以分为正样本与负样本, 负样本更多的存在于失误经验集合中, 过多采样负样本进行训练会导致习得策略的质量不理想. 于是, 参考在线强化学习采用的优先经验回放技术, 离线强化学习也需要通过优化采样模型来改善强化学习智能体的训练效果, 从而提高习得策略的质量. 为此, 本文提出两种离线优先采样模型: 1) 基于时序差分误差的采样模型, 可以提高值函数的估计精度, 有效地应对可能出现的OOD状态. 2) 基于鞅的采样模型, 可以对经验数据进行筛选, 使智能体自主地优先学习对策略优化有利的正样本. 进一步, 将这两种采样模型与BCQ相结合, 提出基于时序差分误差的优先BCQ (TD-PBCQ)和基于鞅的优先BCQ (M-PBCQ). D4RLTorcs数据集上的实验结果表明: 1) TD-PBCQ适用于行为策略基本收敛, 且离线经验缓存中包含少量失误经验的离线强化学习任务. 2) M-PBCQ适用于离线经验缓存中包含较多失误经验的离线强化学习任务.

 1  格子世界实验图

 2  值函数更新热图

 3  平均回报曲线对比(medium经验数据)

 

强化学习通过智能体与环境在线交互来学习最优策略, 近年来已成为求解复杂环境下感知决策问题的重要手段. 然而, 在线收集数据的方式可能会引发安全、时间或成本等问题, 极大限制了强化学习在实际中的应用. 幸运的是, 离线强化学习能够仅从历史经验数据中学习策略, 而无需与环境产生交互, 这种数据驱动的方式为实现通用人工智能提供了新契机. 然而, 离线数据集的质量将影响算法的学习性能, 想要从离线数据集中学到一个好的策略并非易事. 为此, 本文围绕如何从离线数据集中高效地选择有价值的样本展开研究, 利用时序差分误差和鞅来构造样本优先级, 提出两种离线优先采样模型: 基于时序差分误差的采样模型和基于鞅的采样模型. 在智能体训练过程中, 这两种采样模型可以有针对性地选择经验数据, 引导值函数估计和策略优化. 进一步, 将所提两种采样模型与BCQ相结合, 提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ. 需要指出的是, 所提离线优先采样模型具有通用性, 可以方便地与其他离线强化学习方法相结合.

 

作者简介

 

顾扬

2022年获中国矿业大学博士学位. 主要研究方向为深度强化学习. E-mail: guyang@cumt.edu.cn

 

程玉虎

中国矿业大学教授. 2005年获中国科学院自动化研究所博士学位. 主要研究方向为机器学习, 智能系统. E-mail: chengyuhu@163.com

 

王雪松

中国矿业大学教授. 2002年获中国矿业大学博士学位. 主要研究方向为机器学习, 模式识别. 本文通信作者. E-mail: wangxuesongcumt@163.com



https://blog.sciencenet.cn/blog-3291369-1420965.html

上一篇:IEEE/CAA J. Autom. Sinica致谢审稿人
下一篇:基于相对离群因子的标签噪声过滤方法
收藏 IP: 222.131.245.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-29 21:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部