|
引用本文
姜艺, 范家璐, 柴天佑. 数据驱动的保证收敛速率最优输出调节. 自动化学报, 2022, 48(4): 979−990 doi: 10.16383/j.aas.c200932 Jiang Yi, Fan Jia-Lu, Chai Tian-You. Data-driven optimal output regulation with assured convergence rate. Acta Automatica Sinica, 2022, 48(4): 979−990 doi: 10.16383/j.aas.c200932 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200932?viewType=HTML 文章简介 关键词 保证收敛速率, 最优输出调节, 强化学习, 值迭代 摘 要 针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性. 引 言 在实际的控制器设计问题中, 通常是希望将被控对象的输出跟踪给定的设定值或给定的期望轨迹, 即实现输出跟踪. 对于前者, PID控制器、模型预测控制器是一类经典的解决方案. 对于后者, 该问题通常可以建立成一类输出调节问题, 该问题的目标通常包括两部分, 设计稳定的控制器使得输出信号与给定参考轨迹的误差是渐近稳定的, 并且能够完全可以克服外部系统所产生扰动信号对系统所产生的影响. 然而, 解决输出调节问题通常依赖于已知的精确模型参数, 而在一些特殊情况下该要求是难以满足的. 针对模型未知的被控对象的输出跟踪问题, 一些专家学者提出了基于自适应的控制方法, 如模型参考自适应控制、无模型自适应控制、神经网络自适应控制, 这些方法可以在部分模型知识未知的情况下, 很好的实现输出跟踪. 而在有些情况下, 控制器目标需要使得最小化给定的性能指标, 同时希望系统的动态性能满足一定要求, 这使得需要设计最优自适应控制器. 为解决最小化给定的性能指标问题, 一些专家学者提出了基于强化学习的自适应控制方法, 该方法通过与未知被控对象的交互来更新控制策略, 使得控制器是最优的. 对于跟踪问题, 主要有两类基于强化学习的方法, 一类是将跟踪问题定义为一类最优二次型跟踪问题, 另一类是基于输出调节理论的最优输出调节问题. 利用前一类方法, 文献[10-11]与文献[12-15]分别解决了连续与离散线性系统的最优跟踪控制问题, 文献[16]与文献[17-19]分别解决了连续与离散非线性系统的最优跟踪控制问题. 利用后一类方法, 文献[20-23]与文献[24-26]分别解决了连续与离散线性系统的最优输出调节问题, 文献[27]与文献[28]分别解决了连续与离散非线性系统的最优输出调节问题. 上述方法是基于状态反馈与策略迭代的方法, 而对于系统状态难以在线测量的系统, 上述方法不能直接应用, 针对这个问题, 文献[29]与文献[30]分别设计了基于输出反馈的控制器解决了最优跟踪控制问题与最优输出调节问题. 对于动态性能要求, 文献[31]针对单无人机对单目标的环航跟踪问题, 设计了飞行轨迹快速收敛到期望航迹的控制器. 文献[32]通过设计状态反馈和动态输出反馈控制, 研究了机器人系统的有限时间控制问题. 然而, 上述文献需要利用系统的动态模型参数来设计合适的Lyapunov函数. 为了使系统的动态特性满足预先给定的要求, 同时实现最优自适应控制, 本文提出保证收敛速率的数据驱动线性离散系统最优输出调节方法, 该方法不需要部分模型知识, 与文献[24-25]中的方法与被控对象相比, 该算法不需要稳定的初始控制律, 同时输出方程中输入到输出的前馈增益矩阵不等于0, 利用在线的状态数据、输入数据, 或者在线的输出、输入数据求解得到基于状态反馈与输出反馈最优的输出调节器, 并保证跟踪误差的收敛速率满足预先给定的要求. 本文结构如下: 第1节给出离散线性系统的最优输出调节问题描述, 第2节与第3节分别进行基于状态反馈与输出反馈的自适应最优输出调节器设计, 第4节给出设计方法的收敛性与系统闭环稳定性分析, 第5节利用仿真实验验证本文设计方法的有效性, 第6节为结论. 图 7 对比仿真结果 作者简介 姜 艺 2020年获东北大学控制理论与控制工程博士学位. 主要研究方向为工业过程运行控制,网络控制,自适应动制,网络控制,自适应动态规划和强化学习. E-mail: n22@cityu.edu.hk 范家璐 东北大学流程工业综合自动化国家重点实验室副教授. 2011 年获浙江大学控制科学与工程系博士学位,2009至2010年美国宾夕法尼亚州立大学访问学者. 主要研究方向为工业过程运行控制,工业无线传感器网络与移动社会网络. E-mail: jlfan@mail.neu.edu.cn 柴天佑 中国工程院院士. 东北大学教授.1985年获东北大学博士学位. 主要研究方向为自适应控制, 智能解耦控制, 流程工业综台自动化理论和方法与技术. 本文通信作者. E-mail: tychai@mail.neu.edu.cn 相关文章 [1] 张兴龙, 陆阳, 李文璋, 徐昕. 基于滚动时域强化学习的智能车辆侧向控制算法. 自动化学报. doi: 10.16383/j.aas.c210555 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210555?viewType=HTML [2] 俞文武, 杨晓亚, 李海昌, 王瑞, 胡晓惠. 面向多智能体协作的注意力意图与交流学习方法. 自动化学报. doi: 10.16383/j.aas.c210430 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210430?viewType=HTML [3] 唐昊, 刘畅, 杨明, 汤必强, 许丹, 吕凯. 考虑电网调峰需求的工业园区主动配电系统调度学习优化. 自动化学报, 2021, 47(10): 2449-2463. doi: 10.16383/j.aas.c190079 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190079?viewType=HTML [4] 李臻, 范家璐, 姜艺, 柴天佑. 一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法. 自动化学报, 2021, 47(9): 2182-2193. doi: 10.16383/j.aas.c190499 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190499?viewType=HTML [5] 何斌, 刘全, 张琳琳, 时圣苗, 陈红名, 闫岩. 一种加速时间差分算法收敛的方法. 自动化学报, 2021, 47(7): 1679-1688. doi: 10.16383/j.aas.c190140 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190140?viewType=HTML [6] 袁兆麟, 何润姿, 姚超, 李佳, 班晓娟. 基于强化学习的浓密机底流浓度在线控制算法. 自动化学报, 2021, 47(7): 1558-1571. doi: 10.16383/j.aas.c190348 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190348?viewType=HTML [7] 熊珞琳, 毛帅, 唐漾, 孟科, 董朝阳, 钱锋. 基于强化学习的综合能源系统管理综述. 自动化学报, 2021, 47(10): 2321-2340. doi: 10.16383/j.aas.c210166 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210166?viewType=HTML [8] 庞文砚, 范家璐, 姜艺, LewisFrank L.. 基于强化学习的部分线性离散时间系统的最优输出调节. 自动化学报. doi: 10.16383/j.aas.c190853 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190853?viewType=HTML [9] 孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301-1312. doi: 10.16383/j.aas.c200159 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200159?viewType=HTML [10] 刘乃军, 鲁涛, 蔡莹皓, 王硕. 机器人操作技能学习方法综述. 自动化学报, 2019, 45(3): 458-470. doi: 10.16383/j.aas.c180076 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180076?viewType=HTML [11] 张耀中, 胡小方, 周跃, 段书凯. 基于多层忆阻脉冲神经网络的强化学习及应用. 自动化学报, 2019, 45(8): 1536-1547. doi: 10.16383/j.aas.c180685 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180685?viewType=HTML [12] 陈兴国, 俞扬. 强化学习及其在电脑围棋中的应用. 自动化学报, 2016, 42(5): 685-695. doi: 10.16383/j.aas.2016.y000003 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.y000003?viewType=HTML [13] 刘德荣, 李宏亮, 王鼎. 基于数据的自学习优化控制:研究进展与展望. 自动化学报, 2013, 39(11): 1858-1870. doi: 10.3724/SP.J.1004.2013.01858 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.01858?viewType=HTML [14] 程玉虎, 冯涣婷, 王雪松. 基于参数探索的期望最大化策略搜索. 自动化学报, 2012, 38(1): 38-45. doi: 10.3724/SP.J.1004.2012.00038 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00038?viewType=HTML [15] 朱美强, 程玉虎, 李明, 王雪松, 冯涣婷. 一类基于谱方法的强化学习混合迁移算法. 自动化学报, 2012, 38(11): 1765-1776. doi: 10.3724/SP.J.1004.2012.01765 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01765?viewType=HTML [16] 程玉虎, 冯涣婷, 王雪松. 基于状态-动作图测地高斯基的策略迭代强化学习. 自动化学报, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00044?viewType=HTML [17] 王雪松, 田西兰, 程玉虎, 易建强. 基于协同最小二乘支持向量机的Q学习. 自动化学报, 2009, 35(2): 214-219. doi: 10.3724/SP.J.1004.2009.00214 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00214?viewType=HTML [18] 江琦, 奚宏生, 殷保群. 动态电源管理的随机切换模型与在线优化. 自动化学报, 2007, 33(1): 66-71. doi: 10.1360/aas-007-0066 http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0066?viewType=HTML [19] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100. http://www.aas.net.cn/cn/article/id/16352?viewType=HTML [20] 胡光华, 吴沧浦. 平均准则问题的即时差分学习算法. 自动化学报, 2000, 26(4): 533-536. http://www.aas.net.cn/cn/article/id/16555?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-26 18:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社