IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于表征学习的离线强化学习方法研究综述

已有 278 次阅读 2024-7-26 17:04 |系统分类:博客资讯

引用本文

 

王雪松, 王荣荣, 程玉虎. 基于表征学习的离线强化学习方法研究综述. 自动化学报, 2024, 50(6): 11041128 doi: 10.16383/j.aas.c230546

Wang Xue-Song, Wang Rong-Rong, Cheng Yu-Hu. A review of offline reinforcement learning based on representation learning. Acta Automatica Sinica, 2024, 50(6): 11041128 doi: 10.16383/j.aas.c230546

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230546

 

关键词

 

强化学习,离线强化学习,表征学习,历史经验数据,分布偏移 

 

摘要

 

强化学习(Reinforcement learning, RL)通过智能体与环境在线交互来学习最优策略, 近年来已成为解决复杂环境下感知决策问题的重要手段. 然而, 在线收集数据的方式可能会引发安全、时间或成本等问题, 极大限制了强化学习在实际中的应用. 与此同时, 原始数据的维度高且结构复杂, 解决复杂高维数据输入问题也是强化学习面临的一大挑战. 幸运的是, 基于表征学习的离线强化学习能够仅从历史经验数据中学习策略, 而无需与环境产生交互. 它利用表征学习技术将离线数据集中的特征表示为低维向量, 然后利用这些向量来训练离线强化学习模型. 这种数据驱动的方式为实现通用人工智能提供了新契机. 为此, 对近期基于表征学习的离线强化学习方法进行全面综述. 首先给出离线强化学习的形式化描述, 然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理, 进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态. 最后, 对全文进行总结, 并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势, 以期为后续的研究提供有益参考.

 

文章导读

 

强化学习(Reinforcement learning, RL)作为机器学习领域的一大重要分支, 近年来在各种复杂的决策控制任务中都发挥了重要作用[1-2]. 2016, DeepMind公司创新性地将强化学习与系统神经科学相结合, 研发出AlphaGo[3]用于博弈游戏. 该程序成功击败了世界围棋高手李世石, 开创了深度强化学习研究的先河. 随后, 针对不同应用场景, 该公司还研发了各种先进算法, 解决了许多领域中的关键科学问题, 例如: 用于Atari视频游戏的MuZero[4]、用于生命科学领域解析蛋白质结构的AlphaFold[5]、用于实现竞赛代码编程的AlphaCode[6]、用于物理领域控制核聚变反应[7]以及用于数学领域快速矩阵相乘的AlphaTensor[8]. 经过近几年的不断发展与完善, 深度强化学习已然成为一大重要的决策工具. 然而, 现有的许多强化学习算法在仿真环境中能取得很好的效果, 但却难以用于真实业务场景. 其中一个制约因素在于智能体需要与环境进行大量交互, 一个高效的模拟器可能需要使用数以万计甚至数以亿计条轨迹并通过不断试错的方式来学习最优策略. 而在实际应用中, 主动在线交互可能导致智能体探索成本高、数据收集风险大且耗时长, 甚至引发巨大灾难

 

幸运的是, 许多应用领域在前期已积攒大量历史经验数据, 如自动驾驶领域人类的行车记录[9]与医疗领域患者的治疗记录[10]. 如何从这些固定的数据集中发现有价值的信息, 通过数据重用提高样本效率, 从而推断策略为用户提供安全决策支持, 是强化学习领域的重要研究课题. 为此, 离线强化学习[11-12]应运而生. 与在线方式不同, 离线强化学习要求仅从固定的数据集中学习策略, 而无需与环境交互[11], 这种数据驱动的强化学习范式为研究从模拟环境到真实世界的转变提供了极大的可能. 然而, 想要从离线数据集中学到一个好的策略并非易事, 其中一大挑战在于, 智能体学习策略完全依赖于静态数据集, 而无法通过探索发现高奖励的状态动作对, 另一关键挑战在于, 离线训练数据集与待测试的目标任务数据分布未必一致, 当行为策略与目标策略分布不同时, 会造成很严重的分布偏移问题[11]. 同时, 由于离线数据通常具有复杂且高维的特点, 传统的强化学习方法在处理这类数据时面临着巨大挑战

 

为应对上述挑战, 近年来, 学者们对基于表征学习的离线强化学习方法展开深入研究. 表征学习是一种通过学习数据的内在特征来表示数据的机器学习方法. 当面对离线数据复杂且高维的大规模问题时, 有效地利用数据转换(即表征学习), 通常可以显著提高离线强化学习过程的样本和计算效率. 研究证明, 利用在监督或无监督学习环境中开发的表征学习技术能够帮助智能体更有效地理解环境状态, 从而更快地找到最优决策策略. 因此, 基于表征学习的离线强化学习方法成为一个重要的研究方向

 

具体而言, 基于表征学习的离线强化学习总体框架如图1所示, 其涵盖4个阶段: 数据收集、离线训练、策略选择和在线部署. 1)在数据收集阶段, 智能体与环境进行交互, 通过执行一系列动作来收集训练数据, 以便为离线强化学习算法提供足够的训练数据. 这些数据包括智能体在不同状态下的观测值、采取的动作、与环境的交互结果以及相应的奖励信号. 2)在离线训练阶段, 利用收集到的数据, 构建基于表征学习的离线强化学习模型. 首先, 将离线数据集中的原始动作、状态、轨迹、环境或任务等映射为潜在表征, 以揭示数据的内在结构和规律. 然后将潜在表征输入到离线强化学习模型中进行离线训练, 使得智能体能够更好地理解环境并做出合适的决策. 3)在策略选择阶段, 需要根据离线训练得到的强化学习模型来选择最优策略, 以便在实际应用中实现最佳性能. 这个阶段通常涉及到评估和比较不同参数下的强化学习算法和策略, 以找到最适合特定任务的解决方案. 4)在在线部署阶段, 智能体使用已经训练好的模型与策略部署到实际环境中. 智能体根据当前的观测值通过模型来预测最佳动作, 并执行该动作与真实环境进行交互. 这个阶段是将训练过程应用到实际环境中的关键环节. 整个基于表征学习的离线强化学习框架提供了一种强大而灵活的方法来解决强化学习领域中的问题. 通过离线训练和表征学习技术的结合, 智能体能够从历史数据中学习到更好的策略, 并在在线部署中取得更好的性能

 1  基于表征学习的离线强化学习总体框架

 

针对各阶段存在的问题, 本文从以下4个方面对目前的基于表征学习的离线强化学习方法进行综述与总结: 1)在方法层面, 将现有的基于表征学习的离线强化学习方法归纳为动作表征、状态表征、状态动作对表征、轨迹表征和任务或环境表征五大类; 2)在数据层面, 详细介绍了3种离线强化学习基准数据集RL UnpluggedD4RLNeoRL及其离线数据的构造方式; 3)在评估层面, 总结现有的离线策略评估与超参数选择方法; 4)在应用层面, 介绍离线强化学习在工业、推荐系统、智能驾驶等领域的应用. 最后, 给出结论与展望, 希望能为离线强化学习的研究人员提供参考

 2  基于动作表征的离线强化学习框架

 3  基于状态表征的离线强化学习框架

 

本文从方法、数据、评估与应用四大层面对近几年来基于表征学习的离线强化学习方法研究进展进行全面概述. 首先对离线强化学习问题进行形式化描述, 将离线设置下难以学到最优策略的原因归结为外推误差, 而导致外推误差的两个重要因素为分布偏移与数据覆盖不足. 在此基础上, 针对这两个问题并根据表征对象的不同, 将现有的基于表征学习的离线强化学习方法分为动作表征、状态表征、状态动作对表征、轨迹表征以及任务或环境表征五类, 并详细分析了每种类别下的典型算法. 在实验设置层面, 为公平比较离线强化学习算法性能, 介绍了3种基准数据集与评估协议, 同时对现有的离线策略评估与超参数选择的研究进展进行回顾与总结. 最后, 给出了离线强化学习在工业、推荐系统、智能驾驶等领域的应用

 

尽管基于表征学习的离线强化学习领域已经取得一定的进展, 但还有许多挑战和问题需要进一步研究和解决

1) 数据层面. 现有方法通过数据增强、生成式模型、Pareto策略池等方式来增强离线数据的多样性. 能否有更好的自监督数据处理方式来解决数据覆盖不足的问题, 是未来值得探讨的问题

2) 理论层面. 当前的理论研究大都局限于表格马尔科夫决策过程与线性马尔科夫决策过程. 针对非线性马尔科夫决策过程, 证明的基本思想大都采用近似化手段, 将非线性问题通过函数映射转化为线性问题求解, 能否有更好的手段在一般马尔科夫决策过程上证明离线强化学习的采样效率, 是离线强化学习理论研究的难点之一

3) 方法层面. 当前, 离线强化学习算法在处理复杂、连续和高维度状态与动作时仍面临诸多挑战. 如何更有效地从数据中提取表征以准确表示状态和动作是一个关键问题. 由于现实世界的多样性和复杂性, 仅凭有限数据构建通用表征十分困难. 尽管扩散模型能够学习到良好的表征, 但其训练过程效率低下, 无法直接应用于实际问题. 因此, 有必要探索更高效的方法和技术来增强表征学习能力, 并提高其泛化性能. 同时, 基于表征学习的离线强化学习算法的安全性和可解释性也是一个重要的挑战. 由于这些算法是基于数据学习的, 可能会产生不可预测的行为和决策. 因此, 有必要研究更安全、更可解释的算法, 以确保智能决策的可靠性和透明性

4) 离线策略评估与超参数选择. 由于无法与环境交互, 模型的超参数很难调整, 导致实际选择时倾向于过于保守的策略. 因此设计合理有效的离线策略评估(选择)协议也是该方向亟需解决的问题

 

相信随着研究的不断深入, 离线强化学习这种数据驱动的方式能够真正在实际应用场景中落地, 解决更多现实领域的决策控制难题.

 

作者简介

 

王雪松

中国矿业大学信息与控制工程学院教授. 2002年获得中国矿业大学博士学位. 主要研究方向为机器学习与模式识别. E-mail: wangxuesongcumt@163.com

 

王荣荣

中国矿业大学信息与控制工程学院博士研究生. 2021年获得济南大学硕士学位. 主要研究方向为深度强化学习. E-mail: wangrongrong1996@126.com

 

程玉虎

中国矿业大学信息与控制工程学院教授. 2005年获得中国科学院自动化研究所博士学位. 主要研究方向为机器学习与智能系统. 本文通信作者. E-mail: chengyuhu@163.com



https://blog.sciencenet.cn/blog-3291369-1443916.html

上一篇:面向算力网络的智慧调度综述
下一篇:基于单应性扩散约束的二步网格优化视差图像对齐
收藏 IP: 222.131.244.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 06:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部