罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣: 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

深度强化学习入门资料推荐

已有 3344 次阅读 2023-2-12 12:41 |个人分类:强化学习|系统分类:教学心得

                                                深度强化学习入门资料推荐

      强化学习(Reinforcement Learning)和深度强化学习(Deep Reinforcement Learning)随着AI的进一步发展,逐步显示其威力,最近非常火的ChatGPT就使用了人类反馈强化学习 (RLHF)技术。

       强化学习作为AI和机器学习ML的三驾马车之一,尽管历史久远(Richard Sutton,Q-learning等),但最近的发展大约从2013年的DeepMind DQN算法(Playing Atari with Deep Reinforcement Learning)开始。不到10年时间,RL随着深度神经网络Deep learning的发展而迅速发展,由于其具有与环境交互(try-and-error,以反馈收益(Reward Signal)作为学习驱动的自我强化学习的能力,而备受关注。目前比较活跃的国外团队包括DeepMind、OpenAI(ChatGPT)、和UC Berkeley加州大学伯克利分校等。

      强化学习内容繁杂,数学及理论难度较大,由于属于热门前沿研究领域,新的知识及算法发展迅速,但个人感觉在后DL时代,强化学习对于通用AGI的贡献也许远远没有挖尽,而最近的ChatGPT大模型的成功,对于RL及RLHF的研究又加入了新的燃料并寄予厚望,那么对于RL感兴趣如何入门和学习,下面提供部分学习资料供大家参考(PS:由于数量众多,大家看法也未必一样,先简单推荐部分,后续再慢慢补充):

      一、教材:

      1. Reinforcement learning: An introduction. Second edition (Richard Sutton and Barto), 2018, 中英文都有,建议读英文版,虽然侧重 Value-based的算法,但作为基础概念入门,我认为是唯一的经典基线(Baseline)入门教材。

      2. 深度强化学习-基于Python的理论及实践(英文版),劳拉.格雷泽(Laura Graesser),2021,机械工业出版社,作者是Google的研究员,Google的学习与真人打乒乓的机械手臂(Iterative-Sim2Real(i-S2R)和 GoalsEye)就是他们组的项目。她发论文较少,但对于DRL的描述准确深入,另外教材的算法编程实现是另外一个特色。

     3. 动手学强化学习(中文版:张伟楠、沈健、俞勇),2022年,人民邮电出版社。这本教材,前沿内容基本覆盖,内容新,理论虽然没有那么详尽,但内容全面,表述简洁,最为突出的特色是,都有清一色的算法代码,这对于不太喜欢理论,而喜欢上手就编程的码农,想迁移学习RL非常适合。

    4. 深度强化学习(中文版:王树森、黎彧君、张志华),2022年,人民邮电出版社。这本教材,内容也较新、较全,最大的特色是理论方面,有助于读者理解DRL各种算法背后的思想。

    5. 分布式人工智能(中文版:安波、高阳、俞扬等), 2022年,电子工业出版社。这本教材最大特点是围绕多智能体、分布式人工智能和博弈论等内容。

     二、网上视频:(B站等网站)

     1. David Silver UCL 强化学习 公开课(英文:2015年)。共10课PPT做得好,讲解清楚,他是Deepmind强化学习组负责人,AlphaGo首席研究员,是Sutton的学生。2015年Nature的文章(Human-level control through deep reinforcement learning)引起了人们对于DRL的真正重视。

    2. UC 伯克利Pieter Abbeel的 Foundations of Deep RL(英文:2021年)共6节课内容新,概括性强,表达简洁,对当前已有的重要DRL的算法进行了梳理。Pieter Abbeel是吴恩达的开门大弟子,2021年获得 ACM 计算奖(ACM Prize in Computing)

    3. 周博磊,UCLA,强化学习纲要,(中文:2020年), 10节课内容新,PPT做得好(英文),讲解清楚。MIT博士毕业就职港中文,目前已去UCLA就职。

    4. 赵世钰,强化学习的数学原理, 西湖大学 (中文:2022年), 10节课。讲解清楚,内容结构清晰,还有一本作者写作的英文教材,其特点是数学不算太深,适合入门,并兼顾数学的特色。 

    5. Sergey Levine的深度强化学习(CS 285),加州伯克利分校(英文:2021,2022),23节课内容全并且新,但难度较大。好在课程采用微课形式,1节课分成多次讲授。Sergey Levine是Pieter Abbeel的学生,学术功底强及特色突出,其内容具有机器人研究背景的特色,他对于离线强化学习(Offline RL)情有独钟(机器人不耐磨损啊)。



https://blog.sciencenet.cn/blog-451666-1375886.html

上一篇:ChatGPT、AI生产力与通用人工智能AGI
下一篇:后ChatGPT时代?
收藏 IP: 39.88.22.*| 热度|

4 许培扬 郭嘉琳 郑永军 0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 16:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部