|
王鼎, 赵明明, 哈明鸣, 乔俊飞. 基于折扣广义值迭代的智能最优跟踪及应用验证. 自动化学报, 2022, 48(1): 182−193
(Wang Ding, Zhao Ming-Ming, Ha Ming-Ming, Qiao Jun-Fei. Intelligent optimal tracking with application verifications via discounted generalized value iteration. Acta Automatica Sinica, 2022, 48(1): 182−193) http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210658?viewType=HTML 设计一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题。通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数。基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论了迭代跟踪控制律的可容许性和误差系统的渐近稳定性。为了促进算法的实现,建立一个数据驱动的模型网络用于学习系统动态信息,同时构造评判网络和执行网络用于近似迭代代价函数和计算迭代跟踪控制律。值得注意的是,我们提出了新颖的停止准则来保证迭代跟踪控制律的有效性。这种停止准则包含两个条件,一个条件用来保证迭代跟踪控制律的可用性,这有利于评估误差系统的渐近稳定性;而另一个条件用来确保跟踪控制律的近似最优性。最后,通过包括污水处理在内的两个应用实例验证了本文提出的近似最优跟踪控制方法的可行性和有效性。 针对未知非仿射系统的跟踪控制问题,单调递减的代价函数收敛过程如图1所示。当迭代指标时,条件成立,停止准则中的近似最优性条件得到满足。 图1 代价函数收敛过程 图2 折扣因子和Ψi曲线 在运行120个时间步之后,系统状态、参考轨迹和控制律曲线如图3所示。在近似最优跟踪控制策略下,原始系统状态能够快速地跟踪上参考轨迹。 图3 系统状态、参考轨迹和控制律曲线 作者简介 王 鼎 北京工业大学信息学部教授. 2009年获得东北大学理学硕士学位, 2012年获得中国科学院自动化研究所工学博士学位. 主要研究方向为强化学习与智能控制. 本文通信作者. E-mail: dingwang@bjut.edu.cn 赵明明 北京工业大学硕士研究生. 主要研究方向为强化学习和智能控制. E-mail: zhaomm@emails.bjut.edu.cn 哈明鸣 北京科技大学博士研究生. 2016年获得北京科技大学学士学位, 2019年获得北京科技大学硕士学位. 主要研究方向为最优控制, 自适应动态规划, 强化学习. E-mail: hamingming_0705@foxmail.com 乔俊飞 北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: adqiao@bjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社