IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

深度Q学习的二次主动采样方法

已有 2212 次阅读 2019-11-20 17:29 |系统分类:博客资讯

深度Q学习是指:将Q-learning方法和深度神经网络结合,同时引入经验回放和目标值网络等技术实现的方法。深度Q学习在很多领域都取得了成功,而且具有较强的泛化能力和通用性。


尽管目前深度Q学习取得了一些突破(如上图所示),目前仍存在一些因素制约深度强化学习的应用:

(1) 智能体不具备不同任务之间的泛化能力, 在面对全新的任务时, 需要重新进行训练;

(2) 模型稳定性和收敛性难以得到保证;

(3) 智能体为了能够适应环境往往需要与环境进行大量交互, 每次交互除了会增加时间和成本, 还会带来风险;

……


Breakout.gif


Mario.gif


本文主要解决第三个问题,即如何减少智能体与环境的交互次数,提升深度Q学习样本效率。经验回放是强化学习中十分常见的一种技术,即智能体在与环境交互的过程中,将交互产生的样本保存到经验池中,训练时从中采样,这样可以打破样本间的相关性,使得训练过程更加稳定。


在智能体训练时主动选择那些对训练有促进作用的样本可以显著提升样本效率, 典型方法有优先经验回放, 利用样本训练产生的误差 (Temporal-Difference error, TD-error) 作为优先级, 提高已采集样本的利用效率, 加快收敛。


哪些样本对训练有更大的促进作用, 如何从已采集的样本中选择这样的样本是本文研究的问题。本文在分析样本所在序列获得的累积回报对深度强化学习效果影响的基础上, 提出了二次主动采样方法. 首先, 通过计算经验池中序列的累积回报,根据序列累积回报的分布对序列进行优先采样, 然后, 在被采样的序列中以 TD-error 的分布对样本进行优先采样. 两次采样在分别考量累积回报大的


序列中的样本对学习的促进作用和 TD-error 大的样本对 Q 网络的收敛加速作用的同时, 在经验池中累积回报小序列中的样本和 TD-error 值小的样本以较小的概率被采样, 从而保证了训练样本的多样性。


实验环境


最终本文在Atari视频游戏上验证了我们的方法,实验结果表明,相比于其它方法,比如深度Q学习,深度双Q学习等,本文提出的二次主动采样方法能够实现更高的样本效率,同时能够取得更高的分数。


引用格式:赵英男, 刘鹏, 赵巍, 唐降龙. 深度Q学习的二次主动采样方法. 自动化学报, 2019, 45(10): 1870-1882.

链接:http://html.rhhz.net/ZDHXBZWB/html/2019-10-1870.htm

作者简介



赵英男, 哈尔滨工业大学计算机科学与技术学院博士研究生. 2017 年获得哈尔滨工业大学计算机科学与技术研究生学位. 主要研究方向为强化学习, 机器学习.

E-mail: ynzhao rl@163.com


刘鹏,哈尔滨工业大学计算机科学与技术学院副教授. 2007 年获得哈尔滨工业大学微电子与固体电子学博士学位. 主要研究方向为图像处理, 视频分析, 模式识别,超大规模集成电路设计.

E-mail: pengliu@hit.edu.cn


赵巍,哈尔滨工业大学计算机科学与技术学院副教授. 曾获黑龙江省科技进步一等奖. 主要研究方向为模式识别, 机器学习, 计算机视觉. 本文通信作者.

E-mail: zhaowei@hit.edu.cn


唐降龙,哈尔滨工业大学计算机科学与技术学院教授. 1995 年获得哈尔滨工业大学计算机应用技术博士学位. 主要研究方向为模式识别, 图像处理, 机器学习.

E-mail: tangxl@hit.edu.cn




https://blog.sciencenet.cn/blog-3291369-1206903.html

上一篇:【当期目录】IEEE/CAA JAS 第6卷 第6期
下一篇:人-机器人技能传递研究进展
收藏 IP: 103.254.68.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-26 04:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部