Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

哈工大高会军团队: 基于强化学习的多速率系统控制器最优化研究

已有 238 次阅读 2020-6-19 10:41 |个人分类:最新资讯|系统分类:论文交流| 强化学习, 控制器最优化

6月,IJAC发表哈尔滨工业大学高会军教授团队特约稿件:基于强化学习的多速率系统控制器最优化研究,论文第一作者为哈尔滨工业大学李湛副教授。该研究基于强化学习提出一种无模型依赖算法,可用于设计多速率系统的最优控制器 (本文末附全文翻译获取方式)


全文下载:

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0

https://link.springer.com/article/10.1007/s11633-020-1229-0


image.png

众所周知,近乎所有的工业化控制系统均采用了数字化控制,这就凸显了采样系统研究的重要性。在实际的工业生产过程中,普遍存在着传感器信号采样周期不同的情况,这也就是采样系统的多速率特性。而采样系统中部分传统及先进控制方法无法适用于这种多速率系统。早在20世纪50年代就有学者注意到了这个问题,20世纪90年代,研究者提出了一种提升技术,该技术通过将这些系统转化为等效的离散系统来简化多速率问题。此后,该研究课题开始广泛地被控制领域研究者关注。


利用提升方法后,标准控制方法可用来解决等效离散系统的控制问题,进而解决多速率采样系统的控制问题。随着先进控制理论的发展,越来越多关于多速率系统的研究涌现出来。


然而,此前的控制器均是依据系统动力学模型来设计。当系统结构未知或系统参数不确定时,这些控制器就无法满足实际需求。本研究旨在设计一款控制器,可充分利用输入输出数据来优化自身参数,或者直接得到最优控制器参数,我们将这类控制器称为无模型依赖控制器。


强化学习是机器学习的一个重要分支。许多著名研究团队借助强化学习来解决人工智能问题,比如教会机器人玩游戏等。通过与环境进行互动,认知主体可从他们的行动中获得奖励。通过计算奖励得出价值函数,基于价值函数,主体利用强化学习算法来优化策略。1995年,与强化学习核心思想接近的控制理论---自适应动态规划被研究者提出。过去几十年间,这一方法被用于解决控制系统的输出调节问题,还应用于切换系统、非线性系统、滑模控制中解决控制问题。


关于自适应动态规划及强化学习的研究均基于贝尔曼方程展开,研究者们将这两种算法结合在一起解决控制问题。当前,强化学习算法已经应用于解决多种控制器设计问题。仅依靠输入输出数据,强化学习算法就可以优化策略,无需依赖系统参数与结构。一些学者提出基于强化学习的控制结构用以训练直升机的神经网络控制器,相似的方法同样适用于其它类型无人机。其他基于强化学习的控制方法可用在伺服控制系统及交通系统中。


本研究基于强化学习提出一种无模型依赖算法,只需输入输出数据,即可对多速率采样系统的控制器参数进行优化。我们假设状态变量的采样周期不同于传感器信号采样周期。本研究采取了与传统提升方法不同的技术,可将多速率系统转化为另一种等效的离散系统。基于矩阵变换,本研究提出一种算法用以快速设计多速率系统的线性二次型调节器。而后,本研究对行为策略及目标策略进行了定义,并提出一种基于强化学习的离线策略优化算法。利用最小二乘法,本研究将离线策略优化算法改进为无模型依赖强化学习算法,改进后的算法可在不确定环境中优化控制器。最后通过算例验证了提出方法的可用性和有效性。


本文结构如下:

第二部分主要介绍带有状态反馈控制器的多速率系统模型;

第三部分提出一种控制器设计方法及三种控制器优化方法;

第四部分给出工业实例,验证了本研究所提方法的可用性。


image.png


image.png

Controller Optimization for Multirate Systems Based on Reinforcement Learning

Zhan Li, Sheng-Ri Xue, Xing-Hu Yu, Hui-Jun Gao

摘要:

The goal of this paper is to design a model-free optimal controller for the multirate system based on reinforcement learning. Sampled-data control systems are widely used in the industrial production process and multirate sampling has attracted much attention in the study of the sampled-data control theory. In this paper, we assume the sampling periods for state variables are different from periods for system inputs. Under this condition, we can obtain an equivalent discrete-time system using the lifting technique. Then, we provide an algorithm to solve the linear quadratic regulator (LQR) control problem of multirate systems with the utilization of matrix substitutions. Based on a reinforcement learning method, we use online policy iteration and off-policy algorithms to optimize the controller for multirate systems. By using the least squares method, we convert the off-policy algorithm into a model-free reinforcement learning algorithm, which only requires the input and output data of the system. Finally, we use an example to illustrate the applicability and efficiency of the model-free algorithm above mentioned.

关键词:

Multirate system, reinforcement learning, policy iteration, optimal control, controller optimization.

全文下载:

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0 

https://link.springer.com/article/10.1007/s11633-020-1229-0 


image.png


image.png

【程学旗&陈恩红团队】社交网络的传播背景:模拟与建模

高被引Top1团队综述:图像、图形及文本领域的对抗攻击及防御

【精选好文】服务机器人物品归属关系学习新策略

【专题好文】基于神经网络的新型乳腺癌检测框架

综述:用于自由曲面加工的新型计算机数控方法

港科大-微众AI杨强团队:用于生成对话系统的迁移多层注意力网络

美国蒙莫斯大学:基于深度学习的手势识别及无人机控制

陶建华团队:基于半监督梯形网络的语音情感识别

帝国理工学院:自然语言处理中大数据的智能收集与分析

北大王立威团队: 零样本细粒度图像分析新模型

自动化所陶建华团队: 基于真实环境的面部表情分析

英国克兰菲尔德大学: 用于故障监测与诊断的全新多层分析算法

【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展

【综述专栏】实现产品研发“众包”的框架、关键技术及挑战


image.png

2020年6月会议变动汇总

2020年5月会议变动汇总
2020年4月会议变动汇总
2020年3月会议 & 科技部新政速览
2020年1-2月会议日历
2020年国际学术会议参考列表


image.png

【名校好课】MIT最新深度学习公开课

一款强大的公式编辑器
如何在不平坦的科研路上狂奔?
复杂公式转LaTex:一张图片,三步搞定!
提升科研效率的几款小工具
【主编报告】如何写好一篇学术论文?


image.png



http://blog.sciencenet.cn/blog-749317-1238505.html

上一篇:【程学旗&陈恩红团队】社交网络的传播背景:模拟与建模
下一篇:2020年7月会议变动汇总

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-9 05:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部