Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

[转载]异构多智能体系统的输出同步:一个基于数据的强化学习方法

已有 2442 次阅读 2021-8-12 18:03 |个人分类:智能科学与技术学报|系统分类:论文交流|文章来源:转载

微信截图_20210812175619.png


异构多智能体系统的输出同步:一个基于数据的强化学习方法



刘莹莹, 王占山

东北大学信息科学与工程学院,辽宁 沈阳 110819

 

【摘  要】通过强化学习研究了异构多智能体系统的输出同步问题。根据多智能体系统的拓扑结构,定义一个具有邻居控制输入的性能指标和价值函数。为克服已有控制方法需要系统模型的弊端,提出一个基于系统数据的强化学习算法,使输出同步控制器也可以被应用于模型未知的情况。此外,通过调节价值函数中的权重矩阵,可以减少每个智能体的控制成本。最后,通过一个仿真示例验证了该方法的有效性和定义的价值函数的优越性。

【关键词】 多智能体系统 ; 强化学习 ; 输出同步 ; 基于数据

【引用格式】

刘莹莹, 王占山. 异构多智能体系统的输出同步:一个基于数据的强化学习方法[J]. 智能科学与技术学报, 2020, 2(4): 394-400.

LIU Y Y, WANG Z S. Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 394-400.



1.引言



多智能体系统(multi-agent system,MAS)可以描述一组系统的集体行为,并且有很多重要的应用。近些年涌现了大量关于MAS问题的研究。其中,输出同步问题是 MAS 的一个基本问题。在很多实际应用中,每个智能体的动态和维度可能是不同的,因此,研究异构 MAS 的输出同步是十分重要的。

目前,已经有许多关于异构 MAS 输出同步问题的分布式控制器设计方法的研究。大部分控制器设计方法需要求解 MAS 的输出调节方程,并且不可避免地需要系统模型信息。参考文献基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题。参考文献通过设计分布式观测器研究了离散MAS的协同输出调节问题。参考文献都是基于系统模型得到的结果。然而,在许多实际应用中是无法获取 MAS 的精确模型的。因此,已有的分布式控制方法不能应用于这些系统模型未知的情况。

强化学习起源于“试错学习”,强调使用基于环境的反馈修改行为,它由英国生物和心理学家Conway Morgan正式提出。随后,Werbos P J将强化学习用于求解单系统的最优调节问题。由于强化学习可以利用系统数据迭代求解最优控制问题,它也被广泛应用于求解MAS问题。例如,参考文献利用离策略强化学习算法求解MAS的最优输出同步问题。

作为强化学习的一种,Q学习可以利用系统状态和控制信息求解最优控制问题。因此,可以借助系统数据,利用Q学习求解异构MAS的输出同步问题。参考文献通过Q学习算法求取离散时间异构MAS的最优分布式控制策略。

对于大多数求解异构 MAS 输出同步问题的强化学习算法,其价值函数由追踪误差和智能体本身的控制输入组成。这样的价值函数虽然能在一定程度上减少控制成本,但是没有考虑 MAS 拓扑结构对价值函数的影响,即没有考虑邻居智能体对智能体本身的影响。因此需要定义一个包含邻居控制输入信息的性能指标和价值函数,从而减少每个智能体的控制成本。

基于以上讨论,在价值函数中考虑异构 MAS的拓扑信息,并借助系统数据,使用强化学习方法求解异构 MAS 的输出同步问题是十分迫切的。因此,本文定义了一个含有邻居控制输入信息的性能指标,然后基于强化学习中的Q学习提出一个求解MAS控制器的强化学习算法。


2. 基本知识和问题描述

本节首先描述图理论和 MAS 的连接拓扑,然后阐述MAS的输出同步问题。

2.1 图理论和MAS的连接拓扑


一般来说,MAS 的连接拓扑可以用图理论描述。构成图图片的3个要素分别是节点集图片、边 集图片和邻接矩阵图片。图S的边由vij =(j,i)表示,意味着信息由节点 j 流向节点i。如果图片,则aij >0,否则aij =0。除此之外,节点i的邻居集定义为图片。图S的度矩阵D定义为微信截图_20210812182805.png。由此可得图S的拉普拉斯(Laplacian)矩阵图片

如果 MAS 存在领导者,并且每个智能体都可以直接或间接获得领导者的信息,那么图S包含了一个生成树。如果领导者直接连接到节点i上,那么牵引增益gi =1,否则gi =0。图S的牵引矩阵为图片

2.2 MAS的输出同步


考虑如下线性离散时间异构MAS:


图片


其中,N代表智能体的个数,图片图片分别代表智能体i的系统状态、控制输入(即分布式控制器)和输出,ni、mi、q分别表示微信截图_20210812182510.png的维度。系统矩阵图片是时不变的。同时,假设微信截图_20210812182550.png是可控的。

领导者的动态表示如下:


微信截图_20210812182421.png

根据式(2)和图S,给出MAS输出同步问题的通用假设,具体如下。

假设 1:领导者的所有特征值都在单位圆上,并且不重复。

假设2:图S存在生成树。

对于线性离散时间异构MAS,输出同步问题就是设计一个分布式控制器图片,使所有智能体的输出图片和领导者的输出图片达到同步。追踪误差图片定义为:

图片


并且追踪误差需要满足:

图片


3.利用强化学习解决MAS的输出同步问题


在第3.1节定义了一个具有邻居控制输入的性能指标和价值函数,根据定义的价值函数得到MAS的贝尔曼(Bellman)方程。基于Bellman最优原则,得到一个基于系统模型的最优控制表达式。为了在系统模型未知的情况下也可以控制MAS达到同步,在第3.2节基于强化学习中的Q学习提出了一个求解MAS控制器的强化学习算法。

3.1 基于模型的最优控制器


根据式(3)和式(4),定义需要最小化的性能指标:

图片


其中,λ为折扣因子,图片图片为对称矩阵。由式(5)可知,智能体i的追踪性能不仅取决于其追踪误差和控制输入信息,还取决于与其相连的邻居智能体j的输入信息,这与 MAS 的拓扑结构相关。因此,最小化性能指标可以减少每个智能体的控制成本,并完成 MAS 的共同任务——输出同步。

基于式(5),如果控制策略图片是可允许的(即控制策略图片是可以得到并输入系统的),则每个智能体的价值函数可以定义为:

图片


定义增广状态图片。根据式(1)和式(2),相应的增广系统为:

微信截图_20210812182326.png


其中,系统矩阵图片图片图片

根据增广状态图片,价值函数可写为:

图片


其中,图片


注释1:不同于已有的研究异构MAS输出同步问题的文章(如参考文献[16-17,19]),本文的价值函数包含邻居智能体图片的控制输入图片和邻居控制权重矩阵微信截图_20210812182936.png。可以通过调节微信截图_20210812182936.png来调节图片在价值函数中的占比。因此,本文可以在减少自身控制成本的同时,减少邻居智能体的控制成本。


对于由线性系统(式(1))和二次价值函数(式(8))构成的线性二次追踪问题,其价值函数在状态上是二次的。此外,因为价值函数(式(8))考虑了邻居智能体的控制输入,所以智能体i的价值函数与由自身状态和邻居状态构成的二次型函数近似。因此,价值函数(式(8))可以近似表示为如下二次型形式:

图片


9-1.png


结合Bellman原则,可以得到MAS的Bellman方程:

图片


根据 Bellman 最优原则,可以得到 MAS 的Bellman最优方程:

11.png


相应的最优控制为:

图片


为了求得最优控制的具体表达式,将价值函数的二次型形式(式(9))代入式(10),得到:

图片


由此定义相应的哈密尔顿(Hamiltonian)函数Hi(k)为:

14.png


将式(7)代入式(14),通过

图片


可以求得最优控制的具体表达式为:


16.png


其中,图片分别为控制器的控制增益:


17.png


并且图片满足式(13)。

由式(17)可知,所获得的控制器是基于系统模型图片的,它无法在系统模型未知的情况下完成 MAS 的输出同步控制。因此,下一节将给出一个基于数据的强化学习算法,通过该算法进一步求解MAS的输出同步问题。


3.2 基于Q学习的MAS强化学习算法


在第3.1节针对模型已知的情况给出了一个需要系统模型的控制器。但是,在一些实际系统中,被控MAS 的精确模型是无法获取的。为了提高系统的适应性和学习性,本节提出了一个基于系统数据的Q学习算法,通过该算法求解MAS的同步控制器。

根据Bellman式(式(10)),定义MAS的Q函数为:

图片


结合增广系统(式(7))和价值函数(式(9)),式(18)的Q函数变为:



19.png


然后根据


图片


得到控制器:

21.png



根据式(21),要想得到控制器图片,就要先求矩阵图片因为


22.png


所以Q函数的Bellman方程为:


23.png


根据式(19),式(23)变为:

图片


由此,可以通过式(24)求得矩阵图片,进而求得控制器(式(21))。然而,此时求得的控制器要求每个智能体都能知道领导者的信息图片,这在不同的拓扑结构下是无法保证的,因此需要引入一个分布式观测器图片

25.png


其中,c是一个正常数,M是一个待设计的矩阵。通过观测器,未被牵引到领导者的智能体i也可以获得领导者的估计信息。

定义观测误差图片,所以

图片


基于式(26),图片图片可以改写为:

图片


需要说明的是,本文引入的观测器(式(25))在参考文献中已有研究。考虑到篇幅的限制,笔者进行了简要的描述。根据参考文献,观测误差25-1.png是稳定的,因此当k→∞时,25-2.png

结合式(21)、式(24)及式(26)~(28),可用如下基于Q学习的强化学习算法求解MAS同步控制器。

算法1 基于Q学习的强化学习算法

步骤1:初始化。设置迭代数l=0,选择任意的控制策略29-1.png

步骤2:价值更新。

29.png


步骤3:策略提升。


30.png


步骤4:判断终止条件。设ε是一个小的正值,如果图片停止迭代,否则l=l+1,并跳转到步骤2。

注释2:从算法1可以看出,式(30)基于系统数据求解异构 MAS 的输出同步问题。因此,本文通过强化学习中的 Q 学习克服了已有研究需要系统模型的弊端。



4.仿真示例

本节给出一个仿真示例来验证所提方法的有效性。对于线性离散时间异构MAS(式(1)),N=3,其中,


图片


对于领导者动态(式(2)),其中,


32.png


从式(31)和式(32)可以看出,系统动态矩阵图片和领导者动态矩阵图片的维度和数值是不同的,因此可以通过上述示例验证异构MAS的输出同步问题。MAS的有向拓扑如图1所示。

图1.png

从以上描述可知,n1 =1、n2=n3 = 2、q =1、m 1=m2 =m3=1、p=2,则由图1可知15.png

式(15)中参数如下:图片图片

基于以上信息,通过算法1可以获得系统的控制律。图2和图3分别是控制律作用于系统上的输出和跟踪误差。最终,智能体的输出16.png追踪到了领导者的输出图片,跟踪误差趋于0,从而解决了异构 MAS 的输出同步问题,验证了本文方法的有效性。


图2-3.png



为了进一步验证注释 1,选取图片,即智能体i的价值函数中几乎没有邻居智能体的输入。图4图5图6展示了MAS控制过程中不同下控制输入的变化。

由图4,图5,图6可知,小权重17.png对应大的控制输入幅值,大权重图片对应小的控制输入幅值。因此,可以通过调节图片减少每个智能体的控制成本,从而验证了本文定义的具有邻居控制输入的性能指标和价值函数的优越性。


图4.png


图5-6.png




5.结束语

本文研究了异构MAS的输出同步问题。首先,通过定义一个具有邻居控制输入的性能指标和价值函数,得到MAS的Bellman方程;然后,根据最优原则得到基于模型的 MAS 输出同步问题的控制器;为了使控制器也可以应用于模型未知的情况,提出一种基于Q学习的强化学习算法;最后,给出一个仿真示例,并验证了本文方法的有效性。通过调节权重矩阵,体现了本文定义的价值函数的优越性。

作者简介 About authors

刘莹莹(1995-),女,东北大学信息科学与工程学院博士生,主要研究方向为数据驱动的系统无模型控制、基于强化学习的系统最优控制、多智能体系统最优控制等。

王占山(1971-),男,博士,东北大学信息科学与工程学院教授、博士生导师,主要研究方向为神经动力系统稳定性理论、复杂网络同步性与一致性以及数据驱动的智能故障诊断与自适应容错控制等。

微信截图_20210812180159.png





https://blog.sciencenet.cn/blog-951291-1299469.html

上一篇:[转载]基于深度可分离卷积网络的皮肤镜图像病灶分割方法
下一篇:[转载]维宁尔花落高通,自动驾驶领域恐诞生新巨头
收藏 IP: 159.226.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-5 11:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部