IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

含未知动态与扰动的非线性系统神经网络嵌入学习控制

已有 768 次阅读 2022-8-12 17:35 |系统分类:博客资讯

引用本文

 

马乐, 闫一鸣, 徐东甫李志伟孙灵芳含未知动态与扰动的非线性系统神经网络嵌入学习控制自动化学报, 2021, 47(8): 20162028 doi: 10.16383/j.aas.c200186

Ma Le, Yan Yi-Ming, Xu Dong-Fu, Li Zhi-Wei, Sun Ling-Fang. Neural network embedded learning control for nonlinear system with unknown dynamics and disturbance. Acta Automatica Sinica, 2021, 47(8): 20162028 doi: 10.16383/j.aas.c200186

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200186

 

关键词

 

神经网络嵌入,优化控制,深度学习技术,未知非线性动态,不确定与扰动 

 

摘要

 

针对带有不确定性与扰动的非线性系统的性能优化问题, 提出一种基于神经网络嵌入的学习控制方法. 对一类常见的 Lyapunov 函数导数形式, 将神经网络控制器集成到某种对系统稳定的基准控制器中, 其意义在于将原控制器改进为满足Lyapunov稳定的神经网络参数可调控制器, 从而能够利用先进的神经网络学习技术实现控制器的在线优化. 建立了跟踪误差的等效目标函数, 避免了对系统输入–输出的辨识问题. 建立了一种未知非线性与扰动等效值自适应方法, 并依此方法设计基准控制器. RBF (Radial basis function) 反步自适应控制、基于卷积神经网络的滑模控制和深度强化学习控制为对比方法, 对带有死区、饱和、三角函数等数值与物理非线性模型进行仿真分析以测试方法有效性, 并针对上肢康复机器人控制问题进行虚拟实验以验证该方法的实用性. 仿真与实验结果表明, 该方法能在Lyapunov 稳定条件下有效优化基础控制器性能, 对比结果证实了该方法的实用性与先进性.

 

文章导读

 

非线性系统的高性能控制是控制科学与应用中的重要研究问题[1]. 非线性系统普遍存在于如电机力矩控制、康复系统人机交互控制等应用领域[2-3]. 由于非线性系统的复杂性, 目前尚无如线性系统那样较为完善的分析与设计体系[4]. 非线性系统的稳定性分析、不确定性补偿、扰动抑制与性能优化是其中难点问题. 特别是含有非线性动态与扰动因素的非线性系统控制性能优化问题亟待解决.

 

系统稳定性是非线性控制的首要问题. 基于Lyapunov控制(Lyapunov-based control, LBC)是非线性系统控制器分析与设计的重要方法[5]. 其优势在于稳定性分析证明能伴随控制器设计同时生成, Backstepping方法是其中代表方法[6]. 文献[7]建立控制Lyapunov函数(Control Lyapunov function, CLF), 并利用Sontag公式直接设计控制律, 但通常寻找CLF较为困难[8]. 虽然基于Lyapunov的分析与设计已被广泛采用, 但其分析相对困难. 同时对于上述方法当考虑不确定性与扰动等因素后, 其稳定性分析的复杂度将陡增.

 

系统模型中的不确定性给分析与设计带来较大困难. 对于模型形式已知但参数未知的不确定问题, 参数自适应方法将参数误差视作时序量加入Lyapunov函数, 并建立参数自适应律, 实现对参数不确定性的自适应. 针对参数量繁多或者模型形式未知问题, 文献[9]采用RBF (Radial basis function)神经网络作为系统模型中未知非线性项的逼近器, 将未知非线性模型的逼近问题转化为对RBF网络权值自适应逼近问题. 文献[10]采用自适应神经网络方法解决了切换互联系统的非线性不确定问题, 但未考虑控制增益的不确定性. 文献[11]将逼近器进一步改进为一种双环递归神经网络, 该模型考虑了逼近模型的内部时序状态, 试图增强网络逼近能力. 文献[12]采用模糊逻辑方法作为未知非线性的逼近器. 虽然上述方法能有效逼近系统未知非线性项[13], 但不确定性可能产生较大的初始逼近误差, 影响系统动态性能.

 

扰动可视为控制过程中产生的独立于系统模型的不确定因素. 虽然滑模与鲁棒等控制方法对一定范围内扰动具有抑制能力[14], 但缺乏对扰动必要的量化与补偿机制[15]. 基于扰动观测器(Disturbance-observer-based control, DOBC)控制方法则采用估计扰动并加以补偿的直接技术路线[16]. 其中文献[17]针对线性系统采用不确定扰动估计器(Uncertainty and disturbance estimator, UDE)同时估计不确定性与扰动并加以补偿. 文献[18]在相关假设条件下, 设计了针对死区非平滑问题的扰动观测器. 扩张状态观测器(Extended state observer, ESO)提出了一种总扰动思想, 即模型未知动态、控制增益不确定性与扰动的整体作用视作等效扰动加以估计[19-20].

 

通过分析看出, 围绕上述问题展开的工作根本目的是保持控制系统稳定. 然而控制系统的暂态性能与稳态误差等因素也是控制品质的重要指标. 文献[21]将反步控制与最优控制结合, 针对模型确定且无扰动的高阶非线性系统逐步建立可学习的最优控制器. 文献[22]结合辨识方法提出了自适应迭代学习控制(Iterative learning control, ILC)方法, 实现了位值时变线性系统控制. 然而ILC需要重复任务条件并且对扰动较为敏感[23]. 文献[24]采用Hammerstein神经网络作为辨识模型, 建立跟踪误差目标函数在线调节PID (Proportion integral differential)神经网络控制器, 然而辨识初始值和扰动等因素导致的辨识误差会影响性能, 甚至导致系统不稳定.

 

以上分析得出, 非线性系统中的动态不确定性与扰动问题对于控制性能影响较大, 目前研究仅集中在对上述因素的补偿与抑制方面, 对于带有不确定性与扰动的控制问题缺乏有效的性能优化手段. 另一方面, 近年来深度学习技术成绩斐然[25], 利用深度学习提升控制性能将是积极有效的途径. 文献[26]采用卷积神经网络(Convolutional neural network, CNN)作为辨识器结合自适应控制实现了直升机控制, 在基于深度学习的性能优化方面做出了尝试. 文献[27]则采用卷积神经网络作为系统不确定项的逼近器并结合滑模控制实现自适应控制. 基于确定性策略梯度的深度强化学习(Deep deterministic policy gradient, DDPG)对于深度Q神经网络(Deep Q network, DQN)作出改进, 使其能适用于状态与控制输出均为连续值的控制问题[28]. 文献[29]对两种深度强化学习控制的优化能力作出了量化比较. 然而大部分深度强化学习控制方法缺乏必要的稳定性分析, 在实际应用中存在隐患, 这也是该技术未能广泛用于实际控制的原因之一[30].

 

从上述分析看出, 现有研究未能将深度学习充分应用于控制问题中, 主要原因如下: 1)上述研究中深度神经网络的作用是作为未知动态的逼近器或辨识器, 仅将问题转为确定性系统控制, 因此控制性能的上限仅为基础控制器对于该确定性系统的性能; 2)作为逼近器的深度神经网络被简化成了如RBF函数的线性基函数形式[31], 其内部结构与参数未能对系统性能优化作出贡献; 3)多数深度强化学习控制缺乏必要的稳定性分析, 难以保证实际应用稳定. 因此在稳定条件下, 如何充分灵活地利用深度神经网络的结构与优化优势提升非线性系统控制性能是值得深入研究的问题.

 

综上, 本文写作动机可描述为: 针对具有未知动态与扰动的非线性系统, 在少量假设条件下建立既确保Lyapunov稳定, 又简洁灵活的学习控制器, 同时该控制器能在无需辨识条件下利用深度学习技术进行在线优化以实现性能提升. 为此本文提出一种Lyapunov稳定的神经网络嵌入学习控制方法.

 

本文主要工作内容如下:

1)提出了基于神经网络嵌入学习控制器设计方法, 在已知Lyapunov稳定控制器中嵌入神经网络控制器构成可优化的学习控制器, 并通过定理1证明新的控制器仍保证Lyapunov稳定. (详见第1)

2)利用导数等价条件, 建立改进的性能优化目标函数, 以用于学习控制器优化. 改进后的目标函数可规避辨识环节, 直接利用输出反馈优化控制器. (详见第2)

3)受文献[19]启发, 基于Lyapunov方法直接建立未知非线性动态、时变扰动与控制增益不确定的等效值自适应方法. (详见第3)

 

本文主要创新贡献如下:

1)不同于现有方法, 本文神经网络并非用于逼近系统非线性函数, 而是作为用于性能优化的控制分量. 在满足Lyapunov稳定条件下, 神经网络结构可任意构造与调整, 且无需额外的理论分析过程, 从而解放了神经网络控制对模型形式的束缚. 由于神经网络形式任意, 因此大量的深度神经网络模型可简单直接地嵌入控制器中, 并仍保持Lyapunov稳定, 所以本文方法粘合了深度神经网络技术和控制理论与应用的研究缝隙.

2)改进的性能优化目标函数规避了辨识过程, 从而避免了辨识误差对控制的影响. 同时因上述的稳定性保证, 可在线实现目标函数优化.

3)建立的值自适应方法相比传统方法, 无需RBF网络等模型作为逼近器, 同时具有更快的估计速度与精度.

 1  算例1控制性能结果

 5  CoppeliaSim虚拟实验示意图

 

通过分析与测试结果得出如下结论: 1)本文方法通过神经网络控制器的嵌入在满足Lyapunov稳定条件下有效地优化了基准控制器性能; 2)改进的优化目标函数能够有效地优化跟踪误差性能, 规避了辨识环节并支持在线学习; 3)本文方法对函数时变与随机扰动具有较强的抑制能力, 对非线性系统的未知动态项具有良好的估计能力. 综上, 本文提出方法相对传统方法在性能优化、不确定性与扰动的补偿与抑制方面具有实用性和一定的先进性.

 

未来将从如下方面开展工作: 1)将方法适用范围扩展至输出反馈系统; 2)引入其他控制性能指标并设计相应的优化函数; 3)扩展应用领域至多输入多输出系统.

 

作者简介

 

马乐

东北电力大学自动化工程学院副教授. 主要研究方向为机器人学习、控制与视觉.E-mail: male_robot_nedu@sina.com

 

闫一鸣

东北电力大学自动化工程学院硕士研究生. 主要研究方向为神经网络学习控制. E-mail: ddyym3914@163.com

 

徐东甫

东北电力大学自动化工程学院副教授. 主要研究方向为机器人导航与控制. 本文通信作者.E-mail: xu.dong.fu@163.com

 

李志伟

东北电力大学自动化工程学院副教授. 主要研究方向为非线性系统建模、控制及数值模拟. E-mail: zhiwei.li@neepu.edu.cn

 

孙灵芳

东北电力大学自动化工程学院教授. 主要研究方向为热工过程先进控制. E-mail: 15043283452@163.com



https://blog.sciencenet.cn/blog-3291369-1350962.html

上一篇:基于双尺度约束模型的BN结构自适应学习算法
下一篇:智能体Petri网融合的多机器人−多任务协调框架
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-9-27 23:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部