博文

深度强化学习入门资料推荐

已有 4398 次阅读 2023-2-12 12:41 |个人分类:强化学习|系统分类:教学心得

深度强化学习入门资料推荐

强化学习（Reinforcement Learning）和深度强化学习（Deep Reinforcement Learning）随着AI的进一步发展，逐步显示其威力，最近非常火的ChatGPT就使用了人类反馈强化学习（RLHF）技术。

强化学习作为AI和机器学习ML的三驾马车之一，尽管历史久远（Richard Sutton，Q-learning等），但最近的发展大约从2013年的DeepMind DQN算法（Playing Atari with Deep Reinforcement Learning）开始。不到10年时间，RL随着深度神经网络Deep learning的发展而迅速发展，由于其具有与环境交互（try-and-error），以反馈收益（Reward Signal）作为学习驱动的自我强化学习的能力，而备受关注。目前比较活跃的国外团队包括DeepMind、OpenAI（ChatGPT）、和UC Berkeley加州大学伯克利分校等。

强化学习内容繁杂，数学及理论难度较大，由于属于热门前沿研究领域，新的知识及算法发展迅速，但个人感觉在后DL时代，强化学习对于通用AGI的贡献也许远远没有挖尽，而最近的ChatGPT大模型的成功，对于RL及RLHF的研究又加入了新的燃料并寄予厚望，那么对于RL感兴趣如何入门和学习，下面提供部分学习资料供大家参考（PS：由于数量众多，大家看法也未必一样，先简单推荐部分，后续再慢慢补充）：

一、教材：

1. Reinforcement learning: An introduction. Second edition (Richard Sutton and Barto), 2018，中英文都有，建议读英文版，虽然侧重 Value-based的算法，但作为基础概念入门，我认为是唯一的经典基线（Baseline）入门教材。

2. 深度强化学习-基于Python的理论及实践（英文版），劳拉.格雷泽（Laura Graesser），2021，机械工业出版社，作者是Google的研究员，Google的学习与真人打乒乓的机械手臂（Iterative-Sim2Real（i-S2R）和 GoalsEye）就是他们组的项目。她发论文较少，但对于DRL的描述准确深入，另外教材的算法编程实现是另外一个特色。

3. 动手学强化学习（中文版：张伟楠、沈健、俞勇），2022年，人民邮电出版社。这本教材，前沿内容基本覆盖，内容新，理论虽然没有那么详尽，但内容全面，表述简洁，最为突出的特色是，都有清一色的算法代码，这对于不太喜欢理论，而喜欢上手就编程的码农，想迁移学习RL非常适合。

4. 深度强化学习（中文版：王树森、黎彧君、张志华），2022年，人民邮电出版社。这本教材，内容也较新、较全，最大的特色是理论方面，有助于读者理解DRL各种算法背后的思想。

5. 分布式人工智能（中文版：安波、高阳、俞扬等）， 2022年，电子工业出版社。这本教材最大特点是围绕多智能体、分布式人工智能和博弈论等内容。

二、网上视频：（B站等网站）

1. David Silver UCL 强化学习公开课（英文：2015年）。共10课，PPT做得好，讲解清楚，他是Deepmind强化学习组负责人，AlphaGo首席研究员，是Sutton的学生。2015年Nature的文章（Human-level control through deep reinforcement learning）引起了人们对于DRL的真正重视。

2. UC 伯克利Pieter Abbeel的 Foundations of Deep RL（英文：2021年）共6节课。内容新，概括性强，表达简洁，对当前已有的重要DRL的算法进行了梳理。Pieter Abbeel是吴恩达的开门大弟子，2021年获得 ACM 计算奖（ACM Prize in Computing）。

3. 周博磊，UCLA，强化学习纲要，（中文：2020年）， 10节课。内容新，PPT做得好（英文），讲解清楚。MIT博士毕业就职港中文，目前已去UCLA就职。

4. 赵世钰，强化学习的数学原理，西湖大学（中文：2022年）， 10节课。讲解清楚，内容结构清晰，还有一本作者写作的英文教材，其特点是数学不算太深，适合入门，并兼顾数学的特色。

5. Sergey Levine的深度强化学习（CS 285），加州伯克利分校（英文：2021，2022），23节课。内容全并且新，但难度较大。好在课程采用微课形式，1节课分成多次讲授。Sergey Levine是Pieter Abbeel的学生，学术功底强及特色突出，其内容具有机器人研究背景的特色，他对于离线强化学习（Offline RL）情有独钟（机器人不耐磨损啊）。

转载本文请联系原作者获取授权，同时请注明本文来自罗汉江科学网博客。
链接地址：https://blog.sciencenet.cn/blog-451666-1375886.html

上一篇：ChatGPT、AI生产力与通用人工智能AGI
下一篇：后ChatGPT时代？

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

深度强化学习入门资料推荐

当前推荐数：4 推荐人：许培扬 郭嘉琳 郑永军 0

该博文允许注册用户评论请点击登录评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣： 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

深度强化学习入门资料推荐

当前推荐数：4 推荐人： 许培扬 郭嘉琳 郑永军 0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

当前推荐数：4 推荐人：许培扬郭嘉琳郑永军 0

该博文允许注册用户评论请点击登录评论 (0 个评论)