lovesvidon的个人博客分享 http://blog.sciencenet.cn/u/lovesvidon


  • Oregon State University

    • 工程材料->电气科学与工程->电力电子学

    扫一扫,分享此博客主页
你需要登录后才可以留言 登录 | 注册


统计信息

已有 65209 人来访过

【RL系列】强化学习(Tabular)知识汇总 2018-08-18
本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总。作为对强化学习Tabular方法的一个简单指导性的目录,本篇也会提供之前讨论过 ...
(219)次阅读|(0)个评论
【RL系列】Monte Carlo与TD算法的结合,n-step TD算法 2018-08-11
强化学习中的Model-free问题主要的解决思路来源于统计方法。所谓统计方法又可分为Monte Carlo与TD算法。当学习任务可转化为episode task形式时,Monte Carlo与T ...
(236)次阅读|(0)个评论
【RL系列】Q-Learning与SARSA算法的比较 2018-08-06
 Q-Learning是TD算法下Off-policy的表现形式,但Q-Learning算法并不需要通过Importance Sampling去估计动作值函数,可以从理论上证明,在Target Policy为 ...
(319)次阅读|(0)个评论
【RL系列】SARSA算法的基本结构 2018-08-03
SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独 ...
(545)次阅读|(0)个评论
【RL系列】强化学习之On-Policy与Off-Policy 2018-07-27
Off-Policy与On-Policy概述 强化学习大致上可分为两类,一类是Model-Based Learning (Markov Decision),另一类是与之相对的Model Free Learning。 分 ...
(531)次阅读|(0)个评论
【RL系列】从蒙特卡罗方法正式引入强化学习 2018-07-23
蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平 ...
(441)次阅读|(0)个评论

查看更多

    现在还没有记录

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-8-21 11:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部