||
深度强化学习入门资料推荐
强化学习(Reinforcement Learning)和深度强化学习(Deep Reinforcement Learning)随着AI的进一步发展,逐步显示其威力,最近非常火的ChatGPT就使用了人类反馈强化学习 (RLHF)技术。
强化学习作为AI和机器学习ML的三驾马车之一,尽管历史久远(Richard Sutton,Q-learning等),但最近的发展大约从2013年的DeepMind DQN算法(Playing Atari with Deep Reinforcement Learning)开始。不到10年时间,RL随着深度神经网络Deep learning的发展而迅速发展,由于其具有与环境交互(try-and-error),以反馈收益(Reward Signal)作为学习驱动的自我强化学习的能力,而备受关注。目前比较活跃的国外团队包括DeepMind、OpenAI(ChatGPT)、和UC Berkeley加州大学伯克利分校等。
强化学习内容繁杂,数学及理论难度较大,由于属于热门前沿研究领域,新的知识及算法发展迅速,但个人感觉在后DL时代,强化学习对于通用AGI的贡献也许远远没有挖尽,而最近的ChatGPT大模型的成功,对于RL及RLHF的研究又加入了新的燃料并寄予厚望,那么对于RL感兴趣如何入门和学习,下面提供部分学习资料供大家参考(PS:由于数量众多,大家看法也未必一样,先简单推荐部分,后续再慢慢补充):
一、教材:
1. Reinforcement learning: An introduction. Second edition (Richard Sutton and Barto), 2018, 中英文都有,建议读英文版,虽然侧重 Value-based的算法,但作为基础概念入门,我认为是唯一的经典基线(Baseline)入门教材。
2. 深度强化学习-基于Python的理论及实践(英文版),劳拉.格雷泽(Laura Graesser),2021,机械工业出版社,作者是Google的研究员,Google的学习与真人打乒乓的机械手臂(Iterative-Sim2Real(i-S2R)和 GoalsEye)就是他们组的项目。她发论文较少,但对于DRL的描述准确深入,另外教材的算法编程实现是另外一个特色。
3. 动手学强化学习(中文版:张伟楠、沈健、俞勇),2022年,人民邮电出版社。这本教材,前沿内容基本覆盖,内容新,理论虽然没有那么详尽,但内容全面,表述简洁,最为突出的特色是,都有清一色的算法代码,这对于不太喜欢理论,而喜欢上手就编程的码农,想迁移学习RL非常适合。
4. 深度强化学习(中文版:王树森、黎彧君、张志华),2022年,人民邮电出版社。这本教材,内容也较新、较全,最大的特色是理论方面,有助于读者理解DRL各种算法背后的思想。
5. 分布式人工智能(中文版:安波、高阳、俞扬等), 2022年,电子工业出版社。这本教材最大特点是围绕多智能体、分布式人工智能和博弈论等内容。
二、网上视频:(B站等网站)
1. David Silver UCL 强化学习 公开课(英文:2015年)。共10课,PPT做得好,讲解清楚,他是Deepmind强化学习组负责人,AlphaGo首席研究员,是Sutton的学生。2015年Nature的文章(Human-level control through deep reinforcement learning)引起了人们对于DRL的真正重视。
2. UC 伯克利Pieter Abbeel的 Foundations of Deep RL(英文:2021年)共6节课。内容新,概括性强,表达简洁,对当前已有的重要DRL的算法进行了梳理。Pieter Abbeel是吴恩达的开门大弟子,2021年获得 ACM 计算奖(ACM Prize in Computing)。
3. 周博磊,UCLA,强化学习纲要,(中文:2020年), 10节课。内容新,PPT做得好(英文),讲解清楚。MIT博士毕业就职港中文,目前已去UCLA就职。
4. 赵世钰,强化学习的数学原理, 西湖大学 (中文:2022年), 10节课。讲解清楚,内容结构清晰,还有一本作者写作的英文教材,其特点是数学不算太深,适合入门,并兼顾数学的特色。
5. Sergey Levine的深度强化学习(CS 285),加州伯克利分校(英文:2021,2022),23节课。内容全并且新,但难度较大。好在课程采用微课形式,1节课分成多次讲授。Sergey Levine是Pieter Abbeel的学生,学术功底强及特色突出,其内容具有机器人研究背景的特色,他对于离线强化学习(Offline RL)情有独钟(机器人不耐磨损啊)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 11:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社