||
内容提要
强化学习(RL)旨在解决不确定条件下的序贯决策问题,即智能体在与环境的交互过程中通过学习策略以获得最优的累积长期回报。许多现实世界的问题可以被形式化为在不确定问题下的顺序决策,并从RL中受益,例如:工业机器人、医疗和贸易执行等,自动驾驶汽车就是一个典型的应用案例。作为一种代表性的无模型RL算法,深度Q网络(DQN)通过引入深度神经网络,极大地提高了算法效率。然而,DQN中使用的经典深度神经网络由于其确定性的性质,不能够很好地处理顺序决策中的不确定性,从而限制了它们的学习性能。悉尼科技大学人工智能中心路节教授团队提出了新的基于深度核学习的贝叶斯深度强化学习算法以提高智能体学习能力。该成果以“Bayesian Deep Reinforcement Learning via Deep Kernel Learning”为题发表在International Journal of Computational Intelligence Systems期刊。
本文提出了一种新的基于贝叶斯深度模型的无模型RL算法——深度核学习(Deep kernel learning)。具体地说,采用深度核学习(即具有深度核的高斯过程)代替传统的深度学习模型来学习隐藏的复杂动作值函数,这样可以编码更多的不确定性,并充分利用保存的历史交互信息。例如,该算法对动作值函数的预测不仅是动作,而且是动作的方差。作者将预测方差作为每个历史交互的权重,并使用来自加权交互的样本来更新模型。
在标准RL测试平台OpenAI-Gym上的评估实验表明,该算法的性能优于DQN算法。值得关注的是,本文在提出新的算法模型的同时,还提出了一种新的加权采样策略,充分利用了重放内存,进一步提高了算法的性能。这项研究只是一个起点,进一步的研究将指向应用RL技术来支持复杂环境中的动态决策。
原文信息
作者简介
Prof. Dr. Jie Lu, 悉尼科技大学教授,人工智能决策研究中心主任,工程与信息技术学院科研副院长,IEEE Fellow, IFSA Fellow, 澳洲研究委员会桂冠院士(Australian Laureate fellow),主要从事决策支持系统、迁移学习、概念漂移、推荐系统等领域的研究工作。担任国际期刊Knowledge-Based Systems (Elsevier)和International Journal of Computational Intelligence Systems主编,IEEE Transactions on Fuzzy Systems和IEEE Transactions on Systems, Man, and Cybernetics: Systems等期刊副主编。
Dr. Junyu Xuan, 悉尼科技大学工程与信息技术学院
研究方向: 机器学习、贝叶斯非参数学习、文本挖掘、网络挖掘等。
Dr. Zheng Yan,悉尼科技大学人工智能中心
研究方向: 神经网络和深度学习、优化和控制等。
Dr. Guangquan Zhang, 澳大利亚悉尼科技大学工程与信息技术学院
研究方向: 不确定性、模糊逻辑、模糊测量、模糊优化和模糊机器学习等多目标、多层次、群决策。
期刊简介
Impact Factor: 1.838, CiteScore: 3.59
International Journal of Computational Intelligence Systems(IJCIS)是欧洲模糊逻辑和技术学(EUSFLAT)会刊,主要刊载有关应用计算智能各个方面的原创性研究,尤其是针对证明使用了计算智能理论的技术和方法的研究型论文及综述等,由西班牙哈恩大学Luis Martínez Lopez教授和澳大利亚悉尼科技大学路节教授担任共同主编。本刊目前已被DOAJ, Science Citation Index Expanded (SCIE), Ei Compendex and Scopus等数据库收录。
版权声明:
*本文内容由Atlantis Press中国办公室编辑。欢迎转发。如需转载,请在留言区留言,或联系xin.guo@atlantis-press.com。
Atlantis Press是一家出版科学、技术和医学(STM)内容的全球开放获取出版机构,2006年成立于法国巴黎。现总部位于荷兰阿姆斯特丹,在法国巴黎及中国的北京、郑州和香港设有办事处。我们的使命是通过促进科研界和整个社会更有效地传播和交流知识来支持科学、技术和医学研究的进步。迄今,Atlantis Press的数字内容平台包含超过14万篇开放获取论文供读者免费下载阅读,每年产生数千万下载量。Atlantis Press是施普林格•自然集团的一部分。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 13:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社