IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

【精选导读】基于学习的多智能体系统协作控制

已有 3470 次阅读 2022-4-22 14:58 |系统分类:博客资讯

本期推荐两篇基于学习的多智能体系统协作控制相关好文:

★ Lina Xia, Qing Li, Ruizhuo Song and Hamidreza Modares, "Optimal Synchronization Control of Heterogeneous Asymmetric Input-Constrained Unknown Nonlinear MASs via Reinforcement Learning," IEEE/CAA J. Autom. Sinica, vol. 9, no. 3, pp. 520-532, Mar. 2022. 

★ Min Wang, Haotian Shi, and Cong Wang, "Distributed Cooperative Learning for Discrete-Time Strict-Feedback Multi Agent Systems over Directed Graphs," IEEE/CAA J. Autom. Sinica.  DOI: 10.1109/JAS.2022.105542.


不对称输入受限异构多智能体系统的最优追踪同步

研究背景

在大多数控制系统中,输入受限是不可避免的,在实际应用中,如缆索悬挂机器人、翼型无人机等,考虑输入约束是至关重要的。在设计阶段,对有输入受限的系统实施不具有输入受限的控制方案会降低系统的性能,甚至会使系统不稳定。近年来,对称输入受限的单智能体系统的控制相关研究越来越成熟。实际上,在工程行业的许多实际应用中,也受到非对称输入约束的影响。幸运的是,也存在一些针对非对称输入约束问题的研究。但是,已有的文献需要系统的动态信息,而这在许多实际应用中是无法得到的,并且上述结果仅限于非线性单智能体系统。

然而,输入受限在多智能体系统中也存在。关于多智能体系统非对称受限控制目前相对较少。因此,研究一种非对称输入受限策略来解决异构非线性多智能体系统的最优同步控制问题是非常必要的。自适应动态规划算法是在动态规划的基础上发展起来的,已被广泛应用于不确定系统的最优控制中。

成果介绍

北京科技大学的李擎教授和宋睿卓教授团队研究了不对称输入受限异构多智能体系统的最优追踪同步问题,提出了一种改进的基于数据和无模型的自适应动态规划算法来学习受限HJB方程的解,且不需要系统的动力学信息。相关成果Optimal Synchronization Control of Heterogeneous Asymmetric Input-Constrained Unknown Nonlinear MASs via Reinforcement Learning发表于IEEE/CAA Journal of Automatica Sinica 2022年第3期。DOI:10.1109/JAS.2021.1004359

主要贡献为:针对非对称输入受限下异构非线性多智能体系统的最优同步控制问题,提出了一种状态空间变换方法;采用改进的基于数据的自适应动态规划算法,在不需要系统动力学信息的情况下学习非二次HJB方程的解。为了实现该算法,分别构造了评判神经网络和执行因子神经网络来代替以往文献中的执行神经网络,并估计智能体的代价函数和控制策略,从而将输入约束融合到所提出的算法框架中。

首先进行状态空间变换,使变换后的系统满足对称输入受限。然后,考虑到领航者系统的信息不能被每一个跟随者系统获取,设计了一种新的分布式观测器,仅通过相邻跟随者之间的信息交换来估计领航者的状态。在此基础上,结合观测器和跟随者的动态,构建增广系统。然后,设计非二次代价函数,并得到约束HJB方程。提出了一种改进的基于数据的自适应动态规划算法来学习约束HJB方程的解,而不需要获得智能体系统的动力学知识。同时也证明了改进的基于数据的自适应动态规划算法对约束HJB方程解的收敛性。最后,通过仿真算例验证了提出理论结果的可行性和有效性。

具体来讲,首先处理了不对称输入受限,接着为跟随者系统设计了新型观测器来观测非线性领航者,然后设计性能指标函数,运用最优性原理求出了最优受限控制器。针对具有未知动力学的输入约束非线性多智能体系统的最优同步问题,提出了一种改进的基于数据的自适应动态规划算法,并给出了该算法的收敛性。值得注意的是,该算法无需使用系统的动态信息。

该篇创新点在于证明了对称输入受限是非对称输入受限的一种特殊情况,该论文还考虑了非对称输入受限异构多智能体系统的最优控制。提出了改进的无模型自适应动态规划算法,无需智能体的动态信息。由于以往的执行网络是无法使用的,于是提出了执行因子网络和评判网络去逼近控制因子和性能指标函数。

作者及团队

夏丽娜,北京科技大学自动化学院博士研究生,主要研究方向为多智能体同步、事件驱动控制、自适应动态规划。

李擎,北京科技大学自动化学院控制科学与工程系党委书记,教授,博士生导师。北京高等学校教学名师。已发表SCI论文150余篇。主要研究方向为智能控制理论及其在混沌、交流调速系统中的应用、智能优化理论及其在路径规划、基于数据驱动建模中的应用。

宋睿卓,北京科技大学自动化学院教授,博士生导师。主要从事基于数据的智能计算、复杂系统最优决策与控制等方面的研究工作,并将成果应用于人体信号测控、目标定位与识别等领域。共发表论文85篇,其中SCI论文44篇。第一作者ESI高被引论文3篇。出版学术专著3部,其中2部为英文专著。共主持科研项目20项,包括国家自然科学基金项目、北京市基金项目、横向课题等。发表论文在Google Scholar数据库中总引用1386次,H指数19。曾获得2017年中国自动化学会(CAA)自然科学奖一等奖,2017年IEEE DDCLS2017 Best Paper Award。

Hamidreza Modares,密歇根州立大学机械学院助理教授。主要研究方向包括信息物理系统、强化学习、分布式控制、机器人和机器学习。曾获得2015年IEEE弹性控制系统国际研讨会最佳论文奖。目前担任IEEE神经网络与学习系统汇刊的副编辑。


有向图下的离散时间严格反馈多智能体系统分布式协作学习

研究背景

在过去的三十年中,模糊逻辑系统(FLSs)和神经网络(NNs)已被广泛用于非线性光滑函数建模。通过将FLSs/NNs与自适应技术和反步法相结合,研究者们提出了一系列的自适应神经网络或模糊控制策略,解决了具有未知动态的非线性系统控制问题。随后,自适应神经网络和模糊控制方法也被用于解决标准形式的离散非线性系统控制问题。然而,对于离散时间高阶非线性系统,控制律中可能出现未来状态,导致非因果关系问题的出现。为了解决这一问题,研究者们提出了n步超前预测方法、动态神经网络预测方法和基于反步的变量替换方法,但是这些智能控制方法不能保证NN/FLS权重的指数收敛。对于重复的控制任务,NN/FLS权重仍需要在线调整,导致学习能力非常有限。

为解决上述问题,研究者们提出了连续时间非线性系统的确定性学习方法(DL),该方法通过重复利用收敛的神经网络权值,为相似的任务构造控制器。一致性控制是通过智能体之间的信息交互来设计分布式协同控制律,使所有智能体达成一致。受DL理论和一致性控制的启发,分布式协作学习(DCL)被提出,用于无向通信网络下具有范式的离散时间多智能体系统,该方法通过与邻居共享网络权值,来增强神经网络的协作学习能力,相比于DL,DCL具有更好的学习泛化和容错能力。

但是,关于多智能体系统DCL的现有结果均有两个隐含假设,一是离散时间多智能体系统具有范式,二是通信图是无向图。现有的DCL方法严重依赖于对称和半正定的拉普拉斯矩阵,而有向图下的拉普拉斯矩阵是非对称的,智能体NN权重的收敛性难以保证。因此,有向图下的离散时间多智能体系统的DCL问题的研究十分具有挑战性。

成果介绍

华南理工大学王敏教授和山东大学的王聪教授团队研究了离散时间严格反馈多智能体系统在强连通平衡有向图下分布式协作学习问题,研究成果Distributed Cooperative Learning for Discrete-Time Strict-Feedback Multi Agent Systems over Directed Graphs在线发表于IEEE/CAA Journal of Automatica Sinica,DOI:10.1109/JAS.2022.105542

研究了一类有向图下的离散时间严格反馈多智能体系统的分布式协作学习问题。与以往基于无向图的DCL方法相比,有向图的拉普拉斯矩阵是非对称的,且导出的权重误差系统存在n步延迟。首先利用矩阵零空间的性质,给出了一类非对称线性时变(LTV)系统指数收敛的充分条件。该引理推广了具有对称系统矩阵的经典LTV系统的稳定性结果,解决了有向图下NN权值难以收敛的问题,是在有向图上实现DCL的关键条件。随后,给出了一类离散时滞LTV系统指数收敛引理。其结果表明,系统状态将指数收敛到一个序列,而不是一个固定值。

接下来,提出了一种分布式协作控制方案,通过构造协作神经网络权值更新律,保证了所有智能体对不同参考轨迹的跟踪性能。针对稳态控制过程,验证了神经网络权值误差系统满足上述两个扩展的指数收敛条件,使得所有多智能体系统的神经网络权值都能收敛到其共同最优值附近的邻域内。这些收敛的神经网络权值作为经验知识被存储,再通过“mod”函数重新使用,为相似的控制任务构造学习控制器。最后通过仿真实验表明了所提出的DCL方法的有效性。

作者及团队

王敏,华南理工大学教授,博士生导师,广东省杰青、广东省特支计划百千万工程青年拔尖人才、广州市珠江科技新星。2004年和2007年于渤海大学获数学学士学位和应用数学硕士学位,2009年获青岛大学系统理论博士学位,2017-2018年在布鲁内尔大学计算机科学系做访问学者。近年来,主要致力于理论与应用结合方面的研究工作。1)理论研究方向:智能控制与学习;基于模式的智能控制;基于事件触发的网络控制系统智能控制;协同学习与控制。2)应用领域方向:机器人的安全可靠控制;机器人的协同学习与控制;机器人智能自主控制实验平台研发;发动机旋转失速检测与控制。

时昊天华南理工大学自动化科学与工程学院博士研究生,主要研究兴趣包括自适应神经网络控制,动态学习,多智能体系统。

王聪,山东大学教授,博士生导师,1989和1997年于北京航空航天大学获学士和硕士学位,2002年于新加披国立大学电子与计算机工程学院获博士学位,2001-2004年在香港城市大学电子工程系做博士后。国家杰青,国家万人计划科技创新领军人才。曾担任IEEE神经网络汇刊、《自动化学报编委;现担任中国自动化学会故障诊断、控制理论等专业委员会委员。主要研究方向包括动态环境机器学习(确定学习)、动态模式识别、振动故障诊断、基于模式的智能控制、及在心脏疾病、骨科疾病、航空发动机领域的应用研究。在国内外重要学术期刊发表SCI论文70余篇,获得发明专利授权6项,在美国CRC出版社出版《Deterministic Learning Theory》英文专著1部,连续多年入选爱思唯尔中国高被引学者榜单。




https://blog.sciencenet.cn/blog-3291369-1335133.html

上一篇:基于最优工况迁移的高炉铁水硅含量预测方法
下一篇:基于潜在特征选择性集成建模的二噁英排放浓度软测量
收藏 IP: 159.226.20.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 18:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部