CTTjournal的个人博客分享 http://blog.sciencenet.cn/u/CTTjournal

博文

山东大学王炳昌团队 | 一种含乘性噪声随机线性二次控制的在线值迭代方法

已有 437 次阅读 2026-1-4 09:10 |个人分类:文章推荐|系统分类:博客资讯

An online value iteration method for stochastic linear quadratic control with multiplicative noise(一种含乘性噪声随机线性二次控制的在线值迭代方法)

在随机最优控制领域,传统强化学习方法多聚焦于期望型代价函数,且常依赖大量采样或已知系统模型,难以适用于需长期平均性能优化的实际工程场景。山东大学王炳昌团队针对含乘性噪声的随机线性二次控制问题,本文不仅构建了离线与在线双阶段算法架构,还通过伊藤积分增长速率分析与逆李雅普诺夫定理,为含状态-控制耦合扩散项的复杂随机系统提供了严格的收敛性证明。该工作不仅拓展了遍历控制理论在连续时间SLQ系统中的边界,也为电力电子、金融投资组合优化、自主机器人等存在乘性不确定性且需长期稳态性能保障的工业场景,提供了兼具理论严谨性与工程可行性的新型智能控制范式。

An online value iteration method for stochastic linear quadratic control with multiplicative noise一种含乘性噪声随机线性二次控制的在线值迭代方法

作者:Shumei Li, Bing-Chang Wang, Baoqiang Zhang

机构:1山东大学 控制科学与工程学院

引用: Li, S., Wang, BC. & Zhang, B. An online value iteration method for stochastic linear quadratic control with multiplicative noise. Control Theory Technol. (2025). https://doi.org/10.1007/s11768-025-00291-5

全文链接:https://rdcu.be/eV6UO

摘  要

本文提出了一种无模型的在线值迭代(VI)算法,用于求解具有遍历性代价函数的随机线性二次控制问题,其中系统动态方程中的扩散项同时受到状态变量和控制变量的影响。首先,我们基于随机逼近的思想提出了一种离线值迭代算法。然而,该算法依赖于系统参数的先验知识,而这些参数在实际中往往难以获得。为克服这一局限性,我们进一步设计了一种(部分)无模型的在线学习算法,该算法同样基于值迭代框架。所提出的在线算法仅需一条系统轨迹数据,且不要求初始控制律是稳定的。通过利用伊藤积分的增长率来处理由乘性噪声产生的随机项,我们对算法的收敛性给出了严格的理论证明。最后,通过一个仿真实例验证了所提算法的收敛性能。

引  言

简而言之,最优控制是控制理论中最重要的研究课题之一。当被控对象的数学模型未完全已知时,可采用直接或间接自适应控制技术。所谓间接方法,是通过系统辨识程序先估计出系统模型,再基于该模型重新计算控制律;而直接方法则是直接调整系统输入,以实现调节或跟踪特定目标。由于强化学习无需估计系统模型即可直接计算最优控制策略,将强化学习视为自适应最优控制的一种直接方法。

作为机器学习的一个子领域,强化学习在控制界引起了越来越多的关注。传统的最优控制方法依赖于对系统方程和代价函数的完整知识。这些系统方程通常需通过先验知识或实验获得,使得在设计最优控制器时构建合适的模型极具挑战性。即使被控对象的数学模型可用,当模型中的系统参数不够精确时,控制器的性能仍难以保证。传统最优控制方法基于系统模型完全已知的假设,这极大地限制了其适用范围。相比之下,无模型控制不依赖于完整的数学模型,能够适应动态变化的环境条件。然而,大多数无模型控制方法计算复杂度高,且需要大量数据来学习控制策略。随着计算能力的显著提升以及对机器学习(尤其是强化学习)的深入探索,控制领域正在经历深刻的变革。人们期待开发出更加鲁棒、高效的无模型控制方法。无模型控制的概念早在十多年前就已被提出,由于其广泛的应用前景,相关研究至今已大量涌现。有学者回顾了强化学习的发展历程,并提供了其在机器人控制领域的应用实例。

最优调节与跟踪控制问题是控制理论的重要组成部分。线性二次问题在最优控制的理论与应用中扮演着基础性角色,因为许多非线性问题均可通过LQ控制问题进行近似处理。近年来,强化学习技术已被广泛应用于LQ最优控制问题。在确定性系统方面,Rizvi 等人提出了一种基于输出反馈的Q-learning方法,用于求解离散时间LQ 调节问题;Vrabie 等人基于李雅普诺夫方法设计了一种策略迭代算法,以解决连续时间 LQ 调节问题;Chen 等人则采用基于同伦的 PI 方法研究了连续时间系统的镇定控制。近年来,将 RL 应用于求解随机线性二次问题引起了广泛关注。针对离散时间 SLQ 系统,提出了一种直接自适应控制方案,利用最优状态估计实现闭环最优性能;Fazel 等人基于采样技术构建了一种用于LQ调节器的策略梯度方法;Hao等人 提出了一种数据驱动的平均型离轨策略Q-learning算法,用于求解离散LQ跟踪问题。对于连续时间 SLQ 系统,Mohammadi等人采用两点梯度估计的随机搜索方法求解连续时间LQR问题;Wang等人提出了一个随机松弛控制框架,将熵正则化与RL中的高斯探索联系起来,对LQ控制进行了系统性分析,并进一步将其应用于投资组合选择问题;Li 等人提出了一种在线RL算法,用于求解具有乘性噪声的无限时域SLQ最优控制问题。值得注意的是,上述所有研究均聚焦于期望型代价函数,而非遍历型代价函数。这些丰富的研究成果为我们所做工作的定位提供了清晰的学术背景,也凸显了本文在SLQ控制研究图景中的独特贡献。

近年来,遍历控制引起了广泛关注。在随机线性二次问题方面,Yang等人提出了一种专为具有遍历代价的LQ调节器设计的演员-评论家算法,并首次给出了带函数逼近的非渐近收敛性结果;Jia与Zhou基于策略梯度理论,设计了两种演员-评论家算法,用于处理连续时间与连续状态空间下的遍历控制任务。在平均场博弈问题中,Yin 等人基于近似动态规划方法,提出了一种梯度下降算法,旨在为振荡型平均场博弈模型设计近似最优控制律;Carmona与Laurière则针对具有遍历代价的平均场控制与博弈问题,提出了两种机器学习算法。在马尔可夫决策过程的遍历控制方面,Bhatnagar 等人提出了一种基于仿真的随机逼近算法,用于在稀有事件条件下求解马尔可夫链的遍历控制问题;Borkar进一步发展了一种演员-评论家强化学习算法,以求解带约束的MDP问题;Jacquet等人构建了一个应用于电力定价问题的遍历控制模型,拓展了其在能源管理中的实际应用场景。然而,现有研究主要集中在随机加性噪声系统和马尔可夫链。此外,强化学习文献大多探讨的是遍历型指标的“平均版本”,而更具挑战性的“几乎必然型”由于其显著的理论与计算复杂性,仍鲜有研究。

本文提出了一种(部分)无模型的在线值迭代算法,用于求解遍历控制问题,且无需依赖全部系统参数。本文所研究的系统受到乘性噪声扰动,其随机扩散项同时受状态与控制变量的共同影响。此类系统在力学、金融和电力系统等领域具有重要应用价值。首先,我们提出了一种离线VI算法,该算法基于随机逼近的思想。随后,通过运用伊藤公式,进一步发展出一种(部分)无模型的在线学习算法,该算法仅需一条系统轨迹即可运行。此外,我们结合逆李雅普诺夫定理与伊藤积分的增长率,严格证明了在一定条件下该在线算法的收敛性。所提出的方法在多种随机复杂系统中展现出广阔的应用前景,例如电力供应控制、均值-方差投资组合优化以及自主机器人控制等。

与现有研究相比,本文具有以下特点:

(1)不同于以往工作主要聚焦于确定性系统或具有期望型代价函数的随机线性二次控制问题,本文研究了一类具有几乎必然遍历型代价函数的SLQ系统。这一理论拓展使所提出的方法能够更直接地应用于需要长期平均性能优化的实际场景,例如自适应控制与强化学习。然而,满足遍历性假设本身极具挑战性,尤其对于含乘性噪声的SLQ系统而言更是如此。针对乘性噪声所产生的随机项,本文通过分析伊藤积分的增长率,给出了算法收敛性的严格证明。这与具有期望型代价函数的系统不同,后者通过李雅普诺夫定理来证明算法的收敛性。

(2)我们提出了一种(部分)无模型的在线值迭代(VI)算法,该算法无需依赖初始稳定控制策略。相比之下,针对期望型代价准则的研究,所提出的算法主要依赖蒙特卡洛仿真,并需对大量随机样本进行统计分析;而本文算法仅需一条系统轨迹即可运行。该算法主要通过积分和矩阵运算完成轨迹计算与参数更新,使得仿真过程更加简便、易于实现。

本文的结构安排如下:第2节对随机线性二次控制问题进行建模与描述;第3节提出离线值迭代算法,并给出其收敛性证明;第4节在此基础上,进一步提出一种无模型的在线VI算法,并提供严格的收敛性分析;第5节通过数值算例验证所提算法的收敛性能;第6节对全文进行总结。

结  论

本文聚焦于求解一类具有遍历型代价函数的随机线性二次控制问题,并考虑系统随机扩散项同时受状态变量和控制变量影响的情形。首先,我们提出了一种离线算法,该算法需要预先获知系统参数;随后,进一步设计了一种(部分)无模型的在线值迭代算法,该算法仅需一条系统轨迹即可运行。此外,我们结合逆李雅普诺夫定理与随机分析方法,对所提出的离线与在线算法均建立了严格的收敛性证明。最后,通过一个仿真实例,从数值上验证了所提算法的收敛性能。在未来工作中,一个可能的拓展方向是将本文提出的部分无模型VI算法应用于斯塔克尔伯格博弈中。

作者介绍

Shumei Li,于2021年获得中国山东曲阜师范大学数学与应用数学专业理学学士学位。目前,她正在中国山东济南的山东大学攻读控制理论与控制工程专业博士学位。她的研究兴趣包括平均场博弈、随机控制和强化学习。

Bing-Chang Wang,山东大学教授,博士生导师,国家优秀青年基金获得者。2011年在中国科学院系统科学所获得博士学位,2011-2013年先后在加拿大阿尔伯塔大学和澳大利亚的纽卡斯尔大学做博士后,2014年访问加拿大卡尔顿大学,曾获国家优秀青年基金和山东省杰出青年基金资助。曾获得山东省自然科学二等奖、IEEE Beijing Chapter青年作者奖、中国控制会议张贴论文奖、亚洲控制会议青年作者奖提名和入围中国控制会议关肇直奖答辩等。目前担任IEEE Senior Member、中国自动化学会青年工作委员会委员、区块链专委会委员。累计发表论文80余篇,其中在控制理论国际三大顶级期刊IEEE Trans. Automatic Control、 Automatica和SIAM J. Control and Optimization上发表论文19篇(其中长文15篇)。当前研究兴趣包括平均场博弈、随机控制以及强化学习。

Baoqiang Zhang,于2023年获得中国山东济南山东大学控制科学与工程学院的工学硕士学位。目前的研究兴趣包括多智能体系统与强化学习。

期刊简介

image.png  640 spr.jpg

欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年,原刊名为Journal of Control Theory and Applications,2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.5)、EI、Scopus (CiteScore 3.2)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号,获得广东省高水平科技期刊建设项目I期(2021-2024年)和II期,2022-2025年进入中国科协自动化学科领域高质量科技期刊目录。

官网https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿https://mc03.manuscriptcentral.com/ctt

微信:ControlTheoryTech (欢迎扫码关注期刊微信公众号)

qrcode_for_gh_59e46d633fec_258.jpg

X (Twitter): CTT_Journal

微博ControlTheoryTech

Email:jcta@scut.edu.cn    

Tel:020-8711 1464

 2024-2025刊期合集 

Volume 23 (February - November 2025)

Issue 4, 2025

Issue 3, 2025 - Special issue on ADRC: New ADRC developments in Ibero-America

Issue 2, 2025

Issue 1, 2025

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024



https://blog.sciencenet.cn/blog-3635716-1517011.html

上一篇:用于最优控制计算的增广演化方程的紧凑形式
收藏 IP: 218.192.172.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-5 12:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部