博文

【RL系列】SARSA算法的基本结构

已有 4932 次阅读 2018-8-3 23:15 |系统分类:科研笔记

SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{\pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。

强化学习中的统计方法（包括Monte Carlo，TD）在实现episode task时，无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局游戏，那么这个游戏有开始也有结束，统计方法是就是一局接着一局不停的在玩，然后从中总结出最优策略。Monte Carlo与TD的区别在于，Monte Carlo是玩完一局，总结一次，而TD算法是边玩边总结。所以这两层基本结构的外层是以游戏次数为循环，内层则是以游戏过程为循环。

SARSA作为TD算法下的on-policy control算法，只需边进行游戏边更新动作值函数和Policy即可，所以SARSA算法的内层可以由TD算法细化为如下结构：

Windy Grid World

在Markov方法里，曾介绍过Grid World问题，以及使用DP方法求解的过程，具体可以参考：Dynamic programming in Python ，然而如果面对更为复杂的Windy Grid World环境，则Markov方法就很难适用了。在Windy Grid World里，Agent的每一步移动都会受到风的影响，比如正常移动情况下，坐标(1, 1)向右动作会移动到坐标(1, 2)，但如若受到由下向上的风影响，则可能移动到坐标(2, 3)。在Windy Grid World中，风速场虽然可以是固定不变的，但却是未知的，对于存在影响状态转换的未知因素的模型是很难构建的，所以这里我们使用统计方法中的SARSA算法在求解最优策略。

先给出环境设定（四周都是围墙，也就是说不可能被风吹出环境之外，实际程序设计中可以使用“异常检测”与设定可能跳出地图之外的格子风速场为0来实现围墙）：

给出解决该问题的SRASA算法的代码结构（Matlab）

NumOfGames = 500
while(index < NumOfGames)
    [Q, Policy] = PlayGame(Q, Policy);
end                            

function [Q, Policy] = PlayGame(Q, Policy)
while(1)
    % Begin Game
    while(1)
        Action = ChooseAction(Policy(State));
        NextState = State + Action + windy(State);
        try
            Grid(NextState) % Check for exception
        catch
            break;
        end     
        NextAction = ChooseAction(Policy(NextState));
        Q(State, Action) = Q(State, Action) + alpha*(R + gamma*Q(NextState, NextAction)...
            - Q(State, Action));
        Policy = UpdatePolicy(Policy);
        State = NextState;
        if(State == Target)
            return;
        end    
    end
end

给出Windy Grid World的最优Policy（箭头指向为处于每个格子中的最优选择，格子(4, 1)为Start，(4, 8)为Goal，红线表示最优路线15步）；

转载本文请联系原作者获取授权，同时请注明本文来自管金昱科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3189881-1127452.html

上一篇：【RL系列】强化学习之On-Policy与Off-Policy
下一篇：【RL系列】Q-Learning与SARSA算法的比较

收藏 IP: 36.57.157.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

管金昱

扫一扫，分享此博文

全部作者的精选博文

• 从毕业典礼名单一窥真实的曼彻斯特大学中国留学生现状

lovesvidon的个人博客分享 http://blog.sciencenet.cn/u/lovesvidon

博文

【RL系列】SARSA算法的基本结构

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

管金昱

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

lovesvidon的个人博客分享 http://blog.sciencenet.cn/u/lovesvidon

博文

【RL系列】SARSA算法的基本结构

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

管金昱

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)