IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

好文分享│具有稳定保证的离散时间最优学习控制自适应多步评估设计

已有 472 次阅读 2023-11-10 08:54 |系统分类:博客资讯

研究背景

        强化学习最值得注意的方面之一是它与其他工程科学的应用集成,如计算机游戏、电力系统、智能控制等。动态规划是求解最优控制问题的一种重要策略。然而,由于存在“维数灾”、模型辨识困难和Hamilton-Jacobi-Bellman方程的解析解难以直接求解等挑战,导致动态规划在非线性系统中应用受到了限制。因此,许多学者研究基于强化学习和神经网络的自适应动态规划方法,以弥补传统动态规划的缺陷。从而,基于强化学习的方法也可以激发最优控制方法的创新,以解决严峻的控制挑战。在处理复杂问题时,改进现有算法的学习性能是一项成效显著的工作。为了提高学习效率,许多典型的强化学习结构被提出,如多步学习方案、异步学习方案、混合学习方案等。其中,基于学习数据的思想,多步方案被广泛集成在强化学习算法中以提高综合性能,典型的集成算法有TD(λ)、Sara(λ)和Q-learning(λ)。


成果简介

        北京工业大学信息学部的王鼎教授等提出了一种新的集成多步启发式动态规划(multi-step heuristic dynamic programming, MsHDP)算法,该方法利用不成熟策略的容许性判定条件,平滑地调整策略评估步长,以实现各种自适应动态规划算法的集成。结果表明,MsHDP算法的学习效果优于其他传统或集成方法。研究成果发表于IEEE/CAA Journal of Automatica Sinica 2023年第十卷第九期:D. Wang, J. Y. Wang, M. M. Zhao, P. Xin, and J. F. Qiao, “Adaptive multi-step evaluation design with stability guarantee for discrete-time optimal learning control,” IEEE/CAA J. Autom. Sinica, vol. 10, no. 9, pp. 1797–1809, Sept. 2023. doi: 10.1109/JAS.2023.123684 

        文章研究求解最优控制问题的一种新颖集成MsHDP算法。用零代价函数初始化后,MsHDP可以收敛到Hamilton-Jacobi-Bellman方程的最优解。然后,利用MsHDP生成的控制策略分析了系统的稳定性。此外,还设计了一个通用的稳定性判据来确定当前控制策略的可容许性。即该准则不仅适用于传统的值迭代(value iteration,VI)和策略迭代,也适用于MsHDP。基于收敛性和稳定性准则,提出了采用不成熟控制策略的集成MsHDP算法,提高了学习效率。此外,利用执行-评判结构实现了集成的MsHDP算法,其中以神经网络作为参数架构对迭代策略进行评估和改进。最后,给出了仿真实例,证明了集成MsHDP算法的学习效果优于其他传统或集成方法。考虑迭代算法(VI,集成VI,MsHDP)在所述系统下的学习速度。

        结果表明:所有方法都能达到最优范数线,其中传统VI的收敛速度最慢。在传统VI方案的基础上,集成VI在保证稳定性的前提下,有效地加速了获得稳定策略后的阶段。而集成VI在没有稳定性保证的阶段采取较为保守的策略。观察收敛曲线,MsHDP的收敛速度明显优于VI。基于新的稳定条件,集成MsHDP算法可以快速确定可容许策略(见图1中的阶段1和阶段2)。因此,集成MsHDP在整个学习过程中均体现优异的学习速度优势。

图片1.png

图1  神经网络权值范数收敛曲线


作者简介

1-王.png

王鼎,北京工业大学信息学部教授。2009年获得东北大学硕士学位,2012年获得中国科学院自动化研究所博士学位。主要研究方向为强化学习与智能控制。

2-王.png

王将宇,北京工业大学硕博连读生。主要研究方向为强化学习和智能控制。

3-赵.png

赵明明,北京工业大学博士研究生。主要研究方向为强化学习和智能控制。

4-辛.png

辛鹏,北京工业大学博士研究生。主要研究方向为强化学习和智能控制。

5-乔.png

乔俊飞,北京工业大学信息学部教授。主要研究方向为污水处理过程智能控制和神经网络结构设计与优化。

感谢本文作者提供以上简介




https://blog.sciencenet.cn/blog-3291369-1409127.html

上一篇:融合注意力机制的增强受限玻尔兹曼机驱动的交互式分布估计算法
下一篇:具有遗忘个体的社会网络多维观点动力学分析与应用
收藏 IP: 114.64.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-4 13:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部