蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1-动作1-状态1,这个状态转移过程始终是自我更新的过程,而且是一一对应的关系。蒙特卡罗方 ...
我发现互联网上几乎关于Jack's Car Rental问题的学习资料极少,这里做一个总结,以供查阅。 本篇请结合课本Reinforcement Learning: An Introduction学习。Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租车问题”吧。租车问题的描述如下: Jack’s Car Rental Jack m ...