heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

强化学习的示教与自驱 精选

已有 3455 次阅读 2021-10-22 22:34 |系统分类:科研笔记

        真正成功的种子,是不需要奖励的,都是自驱的,这可能是强化学习面临的一个困境,因为他至始至终都在算计他应该如何做,才能获得最大的回报。


       本周三(10月20日晚)讨论班,我的研究生政锋介绍了强化学习的内容,也分享了他在实验上的一些心得。他发现,强化学习的效果对初始时的随机种子或初始状态非常敏感。在做一个小车通过山谷再越过山丘的实验时,初始情况设置不好的话,十有七八会不成功。多数小车会宁愿停在山谷,而不会尝试越过山丘的可能性。

       他认为,强化学习的奖励函数设置得不是太好,因为只有那些越过山丘的种子才给了奖励,而其它一直在尝试但没有成功的却有可能长期得不到奖励。如果能适当地给些奖励,那些种子也就可能走出低谷,找到通往山丘的正确路径。另外,他觉得,如果能给一些成功越过山丘的种子的示教,也有可能让那些躺平在山谷里的种子学到先进经验,从而走出来。

       我想了想,好象有点道理。再细想了下,又觉得这两个点都有些漏洞,原因与强化学习对奖励和成功的设定有关。类比着来讲,强化学习对成功的界定多少有些类似于人类的。

       因为每个人的初始条件都不同,但都希望找到成功的途径或捷径。那么,人类是否可以通过连续性地奖励,来收获成功呢?

      如果奖励是无穷大的,我估计人人都可以通过这种方式成功。我通过“上上下下左右左右BA”无数次体验过这种成功,在每次都不同的失败处,都能毫不费力地转危为安,最终胜利通关。然而,现实社会中,奖励的总量是有限的,子弹是有限的,生命是有限的,什么都是有限的。如果把有限的奖励平均到每个种子上,再平均到每一小步上,最有可能的结果是奖励的量可能达不到种子期望的阈值。

      如果把这种奖励用到机器臂的抓取动作上,比如抓苹果然后放至某个盘子里,它有可能得到抓苹果的奖励后,就没有动力再把苹果放盘子里了,而是会一直在抓完苹果就放掉,以准备再从抓苹果的动作中得到下一个小的、眼前可见的奖励。

      所以,在奖励有限的情况下,可能更合理的策略不是均分,而是给那些更有可能成功的更多奖励,所谓之马太效应。

      那么,又是否可以给出成功者的示教,帮助其它种子实现成功呢?

      这让我想起两件事。一是最近我和学生们合作的会议投稿。虽然最后基本都成稿投出了,但我也遗憾地发现,我上半年就写进我的《读研秘籍》书里的、关于写论文时存在的各种低级错误,学生们在写的论文里,几乎都重复犯了。是不是这些示教经验没用呢?不是!是大家更愿意自己把错误的地方都走一遍,有亲身经历后,才不容易继续犯错。

       二是曾经看过的一位网红博士介绍其如何把短视频的粉丝做到千万级的经验。我印象最深的,不是他的经验。而是他介绍完的一段话。他说,我为什么愿意分享经验呢?因为我知道你们听了也不会去做。如果你按我的做了,肯定有大概率会成功。问题是,听的多,真正愿意行动的,实在是少之又少。

       事实上,真正成功的种子,是不需要奖励的,都是自驱的,这可能是强化学习面临的一个困境,因为他至始至终都在算计他应该如何做,才能获得最大的回报。

             

张军平

2021年10月22日星期五



https://blog.sciencenet.cn/blog-3389532-1309056.html

上一篇:一路"象"北,群体智能的漏洞
下一篇:元梦:水果拼盘的元宇宙

9 杨正瓴 姚小鸥 刘立 黄永义 周忠浩 刘波 陈德旺 曹俊兴 雷宏江

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-8 21:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部