科学网—lovesvidon的博文

【RL系列】马尔可夫决策过程中状态价值函数的一般形式

管金昱 2018-7-12 19:41

请先阅读上一篇文章：【RL系列】马尔可夫决策过程与动态编程在上一篇文章里，主要讨论了马尔可夫决策过程模型的来源和基本思想，并以MAB问题为例简单的介绍了动态编程的基本方法。虽然上一篇文章中的马尔可夫决策过程模型实现起来比较简单，但我认为其存在两个小问题：数学表达上不够简洁状态价值评价型问题 ...

3161 次阅读|没有评论

【RL系列】马尔可夫决策过程与动态编程笔记

管金昱 2018-7-10 17:40

推荐阅读顺序： Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程动态编程笔记 Dynamic programming inPython 本篇马尔可夫决策过程马尔可夫决策（MDP）过程为强化学习（RL）提供了理论基础，而动态编程（DP）为马尔可夫决策过程提供了 ...

个人分类: 写着玩|3850 次阅读|没有评论

【RL系列】Multi-Armed Bandit笔记——Softmax选择策略

管金昱 2018-7-5 22:48

本篇主要是对 Reinforcement Learning: An Introduction(2017) 中的2.8部分做一个简单的补充，重点就放在我是如何理解Softmax策略，以及从Softmax到Gradient中间的过程。Softmax与Gradient策略与epsilon-greedy，UCB策略一样都是强化学习中非常重要的动作选择策略。但Softmax和Gradient并非是毫不关联的，两种策略目的一 ...

个人分类: 写着玩|9652 次阅读|没有评论

【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现

热度 1 管金昱 2018-7-4 14:13

本篇主要是为了记录UCB策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读 Reinforcement Learning: An Introduction (Drfit)的2.7。为了更深入一点了解UCB策略，可以随后阅读下面这篇文章：【RL系列】Multi-Armed Bandit笔记补充（二）—— UCB策略 UCB策略 ...

个人分类: 写着玩|5665 次阅读|2 个评论热度 1

【RL系列】Multi-Armed Bandit笔记补充（二）—— UCB策略

热度 1 管金昱 2018-7-2 20:37

本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导，这一部分书中并未给出详细的过程与分析。 UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只不过在公 ...

个人分类: 写着玩|7173 次阅读|1 个评论热度 1

【RL系列】Multi-Armed Bandit 笔记补充（一）

管金昱 2018-7-2 14:22

在此之前，请先阅读上一篇文章：【RL系列】Multi-Armed Bandit笔记本篇的主题就如标题所示，只是上一篇文章的补充，主要关注两道来自于 Reinforcement Learning: An Introduction 的课后习题。第一题为 Exercise 2.5 (programming) ，主要讨论了Recency-Weighted Average算法相较于Sample Aver ...

3387 次阅读|没有评论

【RL系列】Multi-Armed Bandit问题笔记

管金昱 2018-6-29 17:41

这是我学习Reinforcement Learning的一篇记录总结，参考了这本介绍RL比较经典的 Reinforcement Learning: An Introduction (Drfit) 。这本书的正文部分对理论的分析与解释做的非常详细，并且也给出了对结论详尽的解析，但是把问题的解决和实现都留到到了课后题，所以本篇文章主要侧重与对Multi-Armed Band ...

个人分类: 写着玩|5479 次阅读|没有评论

一个电磁学中常用的积分的计算

热度 1 管金昱 2018-6-13 23:00

原式为： \iint_{x^2 + y^2R^2} \frac{1}{a}\hat{a}dS\\ 可以化简为： \int_{0}^{R} \int_{0}^{2\pi} \frac{L - rcos\theta}{L^{2} + r^{2} - 2Lrcos\theta} r drd\theta\ \hat{x}\\ 将式子分为两部分求解： \frac{1}{\frac{L}{r} + \frac{r}{L} - 2cos\t ...

个人分类: 写着玩|7067 次阅读|4 个评论热度 1

木星掩食（木卫一食）与人类第一次成功的光速测量

管金昱 2018-6-7 11:22

这篇文章我最初发在知乎上： https://zhuanlan.zhihu.com/p/37747330 其中的木星掩食的天文观测视频我就不发到这里来了，有兴趣的话可以去这个链接里看一看。昨天在知乎上看到有人怀念CPhO。原话大意是CPhO有些近代物理相关的题目还是有些意思的，比如那道利用木星掩食计算光速的题目。于是我去检索了一下，这道题是第 ...

个人分类: 写着玩|7288 次阅读|没有评论

【补充记录】python实现图片转视频

管金昱 2018-5-31 17:56

1. 安装Opencv包在Python命令行输入如下命令（如果你使用的Anaconda，直接进入Anaconda Prompt键入命令即可。如果你不知道Anaconda是什么，可以参考王树义老师的文章和视频：如何安装Python运行环境Anaconda ） $pipinstallopvencv-python 2. 实现代码 importos importcv2 ...

4492 次阅读|没有评论

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

lovesvidon

关闭安全验证