|
引用本文
庞文砚, 范家璐, 姜艺, Lewis Frank Leroy. 基于强化学习的部分线性离散时间系统的最优输出调节. 自动化学报, 2022, 48(9): 2242−2253 doi: 10.16383/j.aas.c190853
Pang Wen-Yan, Fan Jian-Lu, Jiang Yi, Lewis Frank Leroy. Optimal output regulation of partially linear discrete-time systems using reinforcement learning. Acta Automatica Sinica, 2022, 48(9): 2242−2253 doi: 10.16383/j.aas.c190853
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190853
关键词
输出调节,离散时间系统,强化学习,非线性未知动态
摘要
针对同时具有线性外部干扰与非线性不确定性下的离散时间部分线性系统的最优输出调节问题, 提出了仅利用在线数据的基于强化学习的数据驱动控制方法. 首先, 该问题可拆分为一个受约束的静态优化问题和一个动态规划问题, 第一个问题可以解出调节器方程的解. 第二个问题可以确定出控制器的最优反馈增益. 然后, 运用小增益定理证明了存在非线性不确定性离散时间部分线性系统的最优输出调节问题的稳定性. 针对传统的控制方法需要准确的系统模型参数用来解决这两个优化问题, 提出了一种数据驱动离线策略更新算法, 该算法仅使用在线数据找到动态规划问题的解. 然后, 基于动态规划问题的解, 利用在线数据为静态优化问题提供了最优解. 最后, 仿真结果验证了该方法的有效性.
文章导读
输出调节问题是一种对于线性和非线性动态系统, 设计反馈控制器从而使系统实现渐近跟踪和干扰抑制的问题[1-5]. 输出调节问题的显著特征则是参考输入和干扰由已知的外系统自主微分或差分方产生的[5]. 目前, 已有学者研究了连续时间系统的输出调节问题[6-8]. 文献[5]对线性和非线性连续时间系统的输出调节问题给出了解决框架. 文献[6]研究了一类加入瞬态性能概念的输出调节问题, 详细研究了可解性条件和调节器结构等问题. 而文献[5-6]都需要在系统的动态模型参数已知的情况下, 解决其输出调节问题.
强化学习作为一种机器学习方法, 是以目标为导向的学习工具, 其中智能体或是决策者通过与环境交互为最优化长期奖励来学习控制策略[9-11], 可主要解决控制领域中的最优控制问题, 其中包括最优调节, 最优跟踪以及最优协同问题. 最优控制问题是一类通过使得代价函数或性能指标达到最优而为动态系统寻找控制律的问题. 典型的最优控制问题是需要系统的模型参数完全已知, 问题的求解是离线的, 其不能适应动态系统中模型参数的变化和不确定性, 因此数据驱动的强化学习方法也就应运而生, 广泛应用于解决离散时间和连续时间不确定系统的最优控制问题. 文献[12]利用数据驱动的强化学习方法利用沿着系统的数据解决了线性系统的最优跟踪问题, 又因为系统的状态数据往往难以获得, 文献[13]提出仅利用输入输出数据, 利用强化学习中的策略迭代和值迭代算法在线寻得最优控制律从而实现最优跟踪. 这2篇文献是针对于线性系统, 文献[14]则针对于非线性系统, 采用基于Actor-Critic结构的强化学习方法数据驱动在线学习跟踪哈密顿−雅可比−贝尔曼方程(Hamilton-Jacobi-Bellman, HJB), 从而解决最优跟踪问题. 由于H无穷问题也可看作是一种最优控制问题, 主要是分别找出最优反馈控制律和最优扰动控制律的一类问题, 因此强化学习也应用于该问题的解决. 针对于H无穷控制问题, 对于线性系统模型参数未知的文献[15], 该文采用强化学习离线策略控制方法进行解决, 并证明了探测噪声会对在线策略迭代算法产生影响使获得参数不准确, 而则不会对离线的策略迭代算法产生影响, 同时证明了离线策略迭代算法的收敛性. 文献[16]则对于未知的非线性系统, 采用强化学习的离线策略方法学习跟踪哈密顿−雅可比−艾萨克方程方程(Hamilton-Jacobi-Isaac, HJI)的解, 在不知道系统模型参数的情况下解决了H无穷跟踪控制问题, 并给出所提算法的收敛性. 数据驱动的强化学习方法还可应用于无线网络环境下的控制问题, 文献[17]就针对于离散时间的网络系统利用沿着系统轨迹的数据实现网络控制系统的最优跟踪问题. 数据驱动的强化学习方法近年来解决了线性与非线性系统、连续和离散系统、传统状态空间控制和网络控制系统、利用沿系统轨迹数据和利用输入输出数据等的最优控制问题.
前文提到传统的输出调节问题都是基于系统的模型参数即模型已知的前提下求解输出调节问题. 而文献[7-8]则是在系统模型参数不确定的情况下利用数据驱动的方法解决输出调节问题. 在文献[7-8]中, 对于连续时间系统分别采用近似动态规划和鲁棒近似动态规划的方法解决了线性系统和部分线性系统的最优输出调节问题. 由于强化学习是解决最优控制问题的有力工具, 前述也有许多学者采用了强化学习方法解决最优跟踪问题, 现在另外考虑外部系统的干扰, 把强化学习应用到解决最优输出调节问题中. 文献[18]将文献[7]中利用数据驱动方法求解线性连续时间系统的最优输出调节问题拓展到线性离散时间系统中. 本文则是针对部分线性的离散时间系统, 在具有模型参数未知的情况下, 利用基于强化学习的离线策略更新方法数据驱动求解最优输出调节问题.
本文将数据驱动的强化学习方法与最优输出调节问题相结合. 主要贡献如下: 针对于存在线性干扰和非线性不确定性的部分离散时间系统的最优输出调节问题, 提出基于强化学习的离线策略更新算法. 该方法不需要知道系统的模型参数, 只利用测量数据在线求解即可实现对最优输出调节控制律的自适应学习, 即可应对系统模型参数的变化, 且提出的方法不仅可以抑制线性的外部干扰并且对动态非线性不确定性存在鲁棒性保证渐近跟踪. 并运用了小增益定理说明了本文提出的方法可以保证闭环系统的稳定性.
本文结构如下: 第1节介绍离散时间部分线性系统的最优输出调节问题. 提出最优输出调节问题中的两个优化问题, 分别为静态优化问题和动态优化问题; 然后将该离散时间系统转化为误差系统, 通过证明误差系统的全局渐近稳定性以推出原系统的最优输出调节问题的可解性. 第2节针对具有线性外部干扰和非线性不确定性的部分线性离散时间系统, 提出离线策略更新算法利用在线数据求解动态规划问题, 并基于动态规划问题的解, 用数据驱动的方法解静态规划问题以此解决其最优输出调节问题. 第3节提供仿真结果验证本文方法的有效性, 并进行对比实验, 比较性能指标突显本文方法的优越性. 第4节为结束语.
图1 系统输出与参考轨迹及跟踪误差
图3 系统干扰
图4 学习阶段P和K的收敛情况
本文提出一个基于强化学习的数据驱动算法, 用于解具有未知模型参数的离散时间部分线性系统的最优输出调节问题. 首先将原系统的输出调节问题的可解性转化为误差系统的全局渐近稳定问题, 给出了原问题的可解性说明; 然后在未知系统模型参数的条件下, 利用在线数据利用基于强化学习的数据驱动的离线策略算法求解最优反馈控制律, 并给出该算法的收敛性说明. 该控制律可以完成系统的干扰抑制和渐近跟踪且对于系统中存在的非线性不确定性存在鲁棒性. 仿真结果验证了本文方法的有效性, 通过对比实验和性能指标的比较, 说明了本文所提方法的优越性. 与跟踪问题相比, 本文方法不仅可以实现跟踪, 当系统本身存在干扰时, 同时可以抑制干扰达到闭环系统的稳定性. 本文方法与完全线性系统的输出调节问题相比, 对输入中存在的动态非线性不确定性存在鲁棒性. 本文将数据驱动的强化学习方法和小增益原理进行结合, 该方法可实现鲁棒强化学习, 从而也为更多控制问题的解决提供了思路.
作者简介
庞文砚
东北大学流程工业综合自动化国家重点实验室硕士研究生. 主要研究方向为工业过程运行控制和强化学习. E-mail: pangwy799@163.com
范家璐
东北大学流程工业综合自动化国家重点实验室副教授. 2011年获浙江大学博士学位. 主要研究方向为工业过程运行控制, 工业无线传感器网络与强化学习. 本文通信作者. E-mail: jlfan@mail.neu.edu.cn
姜艺
中国香港城市大学博士后. 2020年获东北大学控制理论与控制工程专业博士学位. 主要研究方向为工业过程运行控制, 网络控制, 自适应动态规划和强化学习. E-mail: yjian22@cityu.edu.hk
LEWIS Frank Leroy
德克萨斯大学阿灵顿分校教授. 主要研究方向为反馈控制, 强化学习, 智能系统, 协同控制系统和非线性系统. E-mail: lewis@uta.edu
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 02:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社