科学网

 找回密码
  注册
【RL系列】强化学习基础知识汇总
热度 1 管金昱 2018-8-18 20:07
本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总。作为对强化学习Tabular方法的一个简单指导性的目录,本篇也会提供之前讨论过的强化学习中的经典问题实现的代码与相关的图表分析的源文件。 K-level 相关文章: 【RL系列】Multi-Armed Bandit问题笔记 【RL系列 ...
4915 次阅读|1 个评论 热度 1
【RL系列】Monte Carlo与TD算法的结合,n-step TD算法
管金昱 2018-8-11 11:02
强化学习中的Model-free问题主要的解决思路来源于统计方法。所谓统计方法又可分为Monte Carlo与TD算法。当学习任务可转化为episode task形式时,Monte Carlo与TD算法在实现上的不同主要体现在如何更新状态动作值函数。n-step TD算法则是由两种不同的值函数更新形式相结合所产生的,所以想要理解n-step TD算法,对Monte Car ...
6128 次阅读|没有评论
【RL系列】Q-Learning与SARSA算法的比较
管金昱 2018-8-6 13:13
Q-Learning是TD算法下Off-policy的表现形式,但Q-Learning算法并不需要通过Importance Sampling去估计动作值函数,可以从理论上证明,在Target Policy为greedy的情况下使用Importance Sampling去估计当前动作状态的Q函数与直接使用下一状态的Q函数的最大值做TD运算从而更新当前状态的Q值,这两种方法是完全等价的。 ...
11588 次阅读|没有评论
【RL系列】SARSA算法的基本结构
管金昱 2018-8-3 23:15
SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独阐述之。 强化学习中的统计方法(包括Monte Carlo,TD)在实现episode task时,无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局 ...
4976 次阅读|没有评论
【RL系列】强化学习之On-Policy与Off-Policy
管金昱 2018-7-27 19:37
Off-Policy与On-Policy概述 强化学习大致上可分为两类,一类是Model-Based Learning (Markov Decision),另一类是与之相对的Model Free Learning。 分为这两类是站在问题描述的角度上考虑的。同样在解决方案上存在着两种方法对应着这两类问题描述,即Dynamic Programming(DP)和Stochastic Method,其中DP方法可以 ...
13889 次阅读|没有评论
【RL系列】从蒙特卡罗方法正式引入强化学习
管金昱 2018-7-23 23:23
蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1-动作1-状态1,这个状态转移过程始终是自我更新的过程,而且是一一对应的关系。蒙特卡罗方 ...
4429 次阅读|没有评论
【RL系列】蒙特卡罗方法——Soap Bubble
管金昱 2018-7-21 13:58
“肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2,大致的描述如下: 用一个铁丝首尾相连组成闭合曲线,浸入肥皂泡液,拿起后,可以发现肥皂泡液以这个闭合曲线为边界形成了一个曲面。如何将这个曲面描述出来,便是肥皂泡问题的核心。 若想使得肥皂泡液形成一个稳固的曲面, ...
4752 次阅读|没有评论
【RL系列】马尔可夫决策过程——Jack’s Car Rental
热度 1 管金昱 2018-7-17 21:15
我发现互联网上几乎关于Jack's Car Rental问题的学习资料极少,这里做一个总结,以供查阅。 本篇请结合课本Reinforcement Learning: An Introduction学习。Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租车问题”吧。租车问题的描述如下: Jack’s Car Rental Jack m ...
6694 次阅读|1 个评论 热度 1
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
管金昱 2018-7-14 13:23
请先阅读上两篇文章: 【RL系列】马尔可夫决策过程中状态价值函数的一般形式 【RL系列】马尔可夫决策过程与动态编程 状态价值函数,顾名思义,就是用于状态价值评价(SVE)的。典型的问题有“格子世界(GridWorld)”游戏(什么是格子世界?可以参考: Dynamic programming inPython ),高尔夫 ...
5689 次阅读|没有评论

本页有 1 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-13 08:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部