IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

融合自适应评判的随机系统数据驱动策略优化

已有 448 次阅读 2024-6-13 13:12 |系统分类:博客资讯

引用本文

 

王鼎, 王将宇, 乔俊飞. 融合自适应评判的随机系统数据驱动策略优化. 自动化学报, 2024, 50(5): 980990 doi: 10.16383/j.aas.c230678

Wang Ding, Wang Jiang-Yu, Qiao Jun-Fei. Data-driven policy optimization for stochastic systems involving adaptive critic. Acta Automatica Sinica, 2024, 50(5): 980990 doi: 10.16383/j.aas.c230678

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230678

 

关键词

 

自适应评判设计,数据驱动,离散系统,神经网络,Q-learning,随机最优控制 

 

摘要

 

自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题, 但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性. 本文融合自适应评判技术, 建立一种数据驱动的离散随机系统折扣最优调节方法. 首先, 针对宽松假设下的非线性随机系统, 研究带有折扣因子的无限时域最优控制问题. 所提的随机系统 Q-learning 算法能够将初始的容许策略单调不增地优化至最优策略. 基于数据驱动思想, 随机系统 Q-learning 算法在不建立模型的情况下直接利用数据进行策略优化. 其次, 利用执行−评判神经网络方案, 实现了随机系统 Q-learning 算法. 最后, 通过两个基准系统, 验证本文提出的随机系统 Q-learning 算法的有效性.

 

文章导读

 

现代工程与社会生活中广泛存在寻找最优方案的现实问题. 针对控制成本最小化问题, 最优控制提供了一系列解决方案. 对于一般的确定性非线性系统, 常见的技术手段是通过求解 Hamilton-Jacobi-Bellman 方程获得最优策略[1]. 这一方程通常包含难以直接求解的微分方程. 动态规划为最优控制问题提供了一种简化的求解方法, 即将一个多级决策问题转化为多个单级决策问题[2]. 然而, 在处理复杂高维问题时, 动态规划往往会面临维数灾问题[3]. 因此, 基于自学习特性, 提出自适应评判 (或自适应动态规划) 技术[4-6]并用以解决复杂非线性系统的最优控制问题. 尽管强化学习与自适应评判在不同方面强调了各自的特点, 但它们都试图通过学习的方式不断靠近最优目标. 在过去十年里, 涌现了大量基于强化学习的自适应评判技术, 例如, 平行控制[7-8]、演化学习控制[9]、事件触发控制[10-12]、智能工业控制[13-14]. 在某种程度上, 强化学习极大启发了智能控制领域的创新. 结合目前的发展形势, 本文将融合自适应评判技术实现一种自学习的策略优化算法.

 

近年来, 许多新兴技术的重要特点是拥有大量的数据信息, 为数据驱动算法设计提供了现实基础. 2022 , OpenAI 研发了一款现象级的聊天机器人程序 —— ChatGPT[15]. 由人工智能技术驱动, ChatGPT模型通过连接大量的语言库来迭代学习. 在自适应评判领域, 数据驱动思想同样取得了丰硕的研究成果. Luo [16]提出了一种数据驱动的策略梯度自适应动态规划算法, 以解决离散系统无模型最优控制问题, 并给出学习过程中策略的收敛性分析. 基于策略迭代 Q-learning 结构, 提出一种数据驱动的无模型算法[17]并用于求解线性系统博弈问题, 且通过理论证明了迭代 Q 函数的最优性. Lin [18]基于经验回放提出了策略梯度自适应评判方法, 实现了离散时间非线性系统的无模型最优跟踪控制. 文献[19], 报道了一种基于柔和执行评判的数据驱动学习方法用以解决列车节能控制问题. 可见, 在大数据迅速发展的背景下, 数据驱动是实现智能控制的有效方案. 然而, 上述研究的主要对象是确定性系统, 在一定程度上限制了自学习算法的适用范围. 由于机械振动和测量误差等因素的存在, 系统动力学中可能会引入随机扰动. 尽管扰动会增加方案设计和理论分析的难度, 但含随机项的控制器设计更具有实际价值.

 

鲁棒控制一般会考虑最坏的扰动情况, 然而, 对于某些具有统计特性的扰动而言, 这可能会导致过于保守的设计. 相较于鲁棒控制, 随机控制的主要优势体现在处理具有统计特性噪声时丰富的数学工具, 使得控制器设计更加灵活. 针对随机扰动, 已经有一些学者尝试利用自适应评判技术求解随机系统的最优控制问题. Wei [20]提出了一种解决连续时间最优控制的问题自适应评判方法, 该算法将扰动转换为确定性系统零和博弈问题, 但需要建立系统模型和设计相应的博弈代价函数. Liang [21]提出了一种改进的随机系统值迭代算法, 用于求解离散时间随机系统最优控制问题. Pang [22]研究了带有多种随机扰动的线性系统最优控制问题, 利用自适应评判技术实现了最优策略的脱策学习. 最近, 文献[23]提出一种基于模型的连续随机系统策略迭代算法, 通过一个初始容许策略将代价函数的期望最小化求解最优控制策略. 目前, 自适应评判领域针对离散时间非线性随机系统的研究还存在局限性, 尤其是关于无模型数据驱动的相关算法和理论.

 

为了保证随机系统最优控制的可行性, 通常需要引入容许控制的概念确保代价函数有界. 确定性系统相对容易确保无穷时域代价函数存在上界. 对于常见二次型效用函数, 确定性系统利用镇定策略使得状态到达平衡点后效用函数便不再累加, 从而确保无限时域代价函数有上界. 然而, 随机系统可能在平衡点附近按一定概率运动, 导致直接定义的无限时域代价函数无上界. 对此, 关于随机系统的最优控制研究一般假设系统的随机扰动在到达平衡点后消失[24-25]. 本文力求在研究随机系统无限时域最优控制问题的基础上, 放宽对随机扰动形式的假设, 以扩大本文所提方法的应用范围. 具体而言, 通过定义带有折扣因子[26-27]的代价函数, 放松对系统严格的假设且仍能研究无限时域最优控制问题.

 

LincolnRantzer[28]首先提出松弛动态规划用于解决最优控制问题中的维数灾”, 其核心是利用折扣因子适当放松最优性以减少算法实现成本. 文献[28]中设计折扣因子保证库存订单控制代价函数有界, 从而获得次优策略. Ha [29]分析了非线性系统稳定性与折扣因子的关系, 结果表明如果折扣因子选取不当可能导致折扣最优策略不是镇定策略. 此外, 基于自适应评判技术的折扣最优控制问题衍生出许多分支, 如跟踪控制问题[30]和非零平衡问题[31]. 基于上述研究[28-31], 可知对于一般的最优控制问题非必要可不引入折扣因子. 这是由于引入折扣会损失代价函数的最优性[28], 且对系统的稳定性会带来负面影响[29]. 然而, 对于一些无法直接评估无穷时域代价函数的问题可通过折扣因子保证代价函数有界. 需要指出的是在严格的最优性定义下, 自适应评判技术将不再适用于本文的研究问题. 基于此, 本文对折扣因子的应用进行了合理推广, 同时使得自适应评判技术的学习优势在更复杂情况下得以验证.

 

综上, 本文提出了一种基于无模型 Q-learning 技术的数据驱动策略优化算法, 以解决离散时间随机系统的折扣无限时域最优控制问题. 在折扣因子的作用下, 本文所提方法放宽了对于随机系统扰动形式的假设, 拓宽了自适应评判技术的应用范围. 通过由任意容许策略初始化的 Q 函数, 我们证明了所提算法能够使得迭代 Q 函数序列单调不增地迭代至最优. 此外, 本文所提方法可以直接从实际系统获取的数据中学习, 减少了随机系统建模的负担. 最后, 通过两个基准系统测试了本文所提算法的综合性能.

 1  Q 网络权值曲线 (基准系统 I)

 2  执行网络权值曲线 (基准系统 I)

 3  控制策略测试曲线 (基准系统 I)

 

融合自适应评判技术, 本文建立了一种数据驱动的离散随机系统折扣最优调节方法. 理论证明了基于容许的初始策略, 迭代 Q 函数序列可以单调不增地收敛至最优. 此外, 我们给出了随机系统 Q-learning 算法的神经网络实施方案. 最后, 利用两个基准系统验证了本文所提出的随机系统策略优化算法. 事实上, 基于自适应评判技术, 数据驱动随机系统的工作仍有巨大的潜力. 未来可从如下几个方面深入探讨:

1) 本文算法的理论分析过程中, 不考虑迭代过程中神经网络近似误差. 然而, 在实际的分析中, 近似误差可能会带来许多的影响, 包括系统的稳定性和算法的收敛分析. 值得一提的是, 由于随机系统需要在每一次迭代过程中重新拟合策略, 因此执行网络误差无法提供一种简化的分析思路, 如文献[32]所述的处理技巧. 这给误差分析带来了很大挑战.

2) 在算法的应用过程中, 可以利用收集的数据预训练系统模型. “模型数据”, “在线离线的混合学习, 可能会进一步提高算法效率以及控制性能.

3) 算法实现过程的主要难点是利用行为策略探索充分的数据, 数据是本文方法赖以执行的基础, 因此, 可考虑应用数据增强技术来提高自适应评判算法的综合性能, 例如, 典型的数字孪生、迁移学习等技术.

 

作者简介

 

王鼎

北京工业大学信息学部教授. 2009 年获得东北大学硕士学位, 2012 年获得中国科学院自动化研究 所博士学位. 主要研究方向为强化学 习与智能控制. 本文通信作者. E-mail: dingwang@bjut.edu.cn

 

王将宇

北京工业大学信息学部博士研究生. 主要研究方向为强化学习和智能控制. E-mail: wangjiangyu@emails.bjut.edu.cn

 

乔俊飞

北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制和神经网络结构设计与优化. E-mail: adqiao@bjut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1438046.html

上一篇:基于序列注意力和局部相位引导的骨超声图像分割网络
下一篇:基于肌电−惯性融合的人体运动估计: 高斯滤波网络方法
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-20 19:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部