LIU Y Y, WANG Z S. Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 394-400.
1.引言
多智能体系统(multi-agent system,MAS)可以描述一组系统的集体行为,并且有很多重要的应用。近些年涌现了大量关于MAS问题的研究。其中,输出同步问题是 MAS 的一个基本问题。在很多实际应用中,每个智能体的动态和维度可能是不同的,因此,研究异构 MAS 的输出同步是十分重要的。 目前,已经有许多关于异构 MAS 输出同步问题的分布式控制器设计方法的研究。大部分控制器设计方法需要求解 MAS 的输出调节方程,并且不可避免地需要系统模型信息。参考文献基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题。参考文献通过设计分布式观测器研究了离散MAS的协同输出调节问题。参考文献都是基于系统模型得到的结果。然而,在许多实际应用中是无法获取 MAS 的精确模型的。因此,已有的分布式控制方法不能应用于这些系统模型未知的情况。 强化学习起源于“试错学习”,强调使用基于环境的反馈修改行为,它由英国生物和心理学家Conway Morgan正式提出。随后,Werbos P J将强化学习用于求解单系统的最优调节问题。由于强化学习可以利用系统数据迭代求解最优控制问题,它也被广泛应用于求解MAS问题。例如,参考文献利用离策略强化学习算法求解MAS的最优输出同步问题。 作为强化学习的一种,Q学习可以利用系统状态和控制信息求解最优控制问题。因此,可以借助系统数据,利用Q学习求解异构MAS的输出同步问题。参考文献通过Q学习算法求取离散时间异构MAS的最优分布式控制策略。 对于大多数求解异构 MAS 输出同步问题的强化学习算法,其价值函数由追踪误差和智能体本身的控制输入组成。这样的价值函数虽然能在一定程度上减少控制成本,但是没有考虑 MAS 拓扑结构对价值函数的影响,即没有考虑邻居智能体对智能体本身的影响。因此需要定义一个包含邻居控制输入信息的性能指标和价值函数,从而减少每个智能体的控制成本。 基于以上讨论,在价值函数中考虑异构 MAS的拓扑信息,并借助系统数据,使用强化学习方法求解异构 MAS 的输出同步问题是十分迫切的。因此,本文定义了一个含有邻居控制输入信息的性能指标,然后基于强化学习中的Q学习提出一个求解MAS控制器的强化学习算法。
根据式(3)和式(4),定义需要最小化的性能指标: 其中,λ为折扣因子,、为对称矩阵。由式(5)可知,智能体i的追踪性能不仅取决于其追踪误差和控制输入信息,还取决于与其相连的邻居智能体j的输入信息,这与 MAS 的拓扑结构相关。因此,最小化性能指标可以减少每个智能体的控制成本,并完成 MAS 的共同任务——输出同步。 基于式(5),如果控制策略是可允许的(即控制策略是可以得到并输入系统的),则每个智能体的价值函数可以定义为:
本文研究了异构MAS的输出同步问题。首先,通过定义一个具有邻居控制输入的性能指标和价值函数,得到MAS的Bellman方程;然后,根据最优原则得到基于模型的 MAS 输出同步问题的控制器;为了使控制器也可以应用于模型未知的情况,提出一种基于Q学习的强化学习算法;最后,给出一个仿真示例,并验证了本文方法的有效性。通过调节权重矩阵,体现了本文定义的价值函数的优越性。