|
引用本文
刘柢炬, 王雅琳, 刘晨亮, 罗彪, 桂卫华. 基于多智能体强化学习的流程工业多操作参数协同优化. 自动化学报, 2026, 52(1): 78−90 doi: 10.16383/j.aas.c250308
Liu Di-Ju, Wang Ya-Lin, Liu Chen-Liang, Luo Biao, Gui Wei-Hua. Collaborative optimization of multiple operating parameters for process industries based on multi-agent reinforcement learning. Acta Automatica Sinica, 2026, 52(1): 78−90 doi: 10.16383/j.aas.c250308
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250308
关键词
协同优化,图谱感知强化学习,拉普拉斯谱分析,层次化注意力,流程工业智能优化
摘要
流程工业普遍存在多操作参数强耦合、工艺拓扑复杂及多工序协同困难等问题, 传统局部优化方法难以实现全局最优运行. 针对上述挑战, 提出一种基于图谱理论的流程拓扑结构感知的多智能体强化学习协同优化方法, 以实现复杂拓扑流程工业的多操作参数协同优化. 首先, 构建基于拉普拉斯谱分析的拓扑结构解析框架, 刻画多操作参数间的耦合关系, 为智能体任务分配与协同决策提供支撑; 随后, 设计融合长短期记忆网络与多头注意机制的时序感知模块, 提取历史状态轨迹中的关键时间依赖特征; 进一步, 引入多层次空间注意力机制, 在组织层、变量层及连续控制域实现优化关注度的动态自适应调节; 在此基础上, 构建局部−全局协同的分层强化学习决策架构, 实现多智能体协调控制与策略优化. 基于连续搅拌釜反应器系统及盐湖化工典型流程工业数据开展仿真实验, 验证了所提方法的有效性. 实验结果表明, 该方法较传统方法性能提升41.2%, 在收敛速度与策略稳定性方面表现更优, 为流程工业多操作参数协同优化提供新的技术路径.
文章导读
流程工业是国家战略资源保障与高端制造体系构建的重要支撑, 广泛应用于石化、冶金、化工等关键领域, 在原料高效转化与能源梯级利用中发挥着重要作用[1−6]. 该类过程通常具有工艺流程复杂、过程变量维度高和多变量强耦合等特征, 由成百上千个相互关联的操作变量构成一个空间交错、结构嵌套的复杂系统. 这些变量分布于各个工艺单元之间, 同时表现出跨时间尺度的动态协同关系[7−9]. 随着全球制造业向智能化、绿色化转型升级, 特别是“制造强国”和“双碳”战略的深入推进, 流程工业正加速从经验驱动的局部调控模式, 迈向以数据与模型驱动为核心的整体优化阶段. 这一转型不仅要求企业在保障生产安全稳定的前提下提升经济效益, 更需要在环保约束日益严格、市场竞争愈发激烈的背景下实现可持续发展. 在运行环境高度动态、结构形态日益异构的背景下, 如何实现跨层级、跨单元的全局多操作参数协同优化, 已成为制约流程工业智能化转型的核心挑战[10−12].
现有方法的技术局限主要体现在以下几个方面: 首先, 系统结构理解的隐式化问题. 现有方法对系统结构的理解大多采用隐式方式, 缺乏明确的结构解析机制, 导致模型的可解释性不足, 难以为工程技术人员提供直观的系统认知. 这与流程工业对可解释性和可操作性的高要求形成了鲜明矛盾. 其次, 注意力机制的单一化设计. 现有多智能体方法往往采用统一的注意力机制, 无法同时兼顾组织层面的宏观协调、变量层面的精细调节以及连接层面的动态交互, 难以适应流程工业中跨尺度、多层次的复杂耦合特征. 再者, 时序建模能力的不足. 在应对动态扰动与系统不确定性方面仍显不足, 特别是在处理工况突变、设备故障等异常情况时, 现有方法往往表现出响应滞后和鲁棒性不足的问题[26−28], 这主要源于缺乏对历史演化模式的深度建模, 无法有效利用时序信息预测和应对系统动态变化. 最后, 大规模系统的处理瓶颈. 现有多智能体强化学习方法在处理大规模系统时常常面临维度诅咒和训练不稳定的问题, 特别是在智能体数量增加时, 联合动作空间呈指数增长, 导致策略搜索效率显著下降, 限制了其在实际工业环境中的应用.
针对上述技术挑战, 本文提出一种基于图谱理论的多智能体强化学习多操作参数协同优化方法. 该方法的核心思想是将复杂的多操作参数协同优化问题转化为一个结构化的多智能体决策过程. 首先, 通过拉普拉斯谱分析对系统进行显式的拓扑结构解析, 识别变量间的内在关联模式并自动完成智能体任务划分; 然后, 设计融合时序注意力与多层次空间注意力的动态模式识别机制, 从历史演化轨迹中提取关键信息, 同时在组级、变量级和连接级三个层面识别当前时刻的关键优化域; 最后, 构建层次化的协同决策架构, 通过局部决策生成与全局协调优化的两阶段策略, 实现多智能体间的高效协作. 与现有方法相比, 本文通过拉普拉斯谱分析实现流程结构的显式解析, 突破了传统方法依赖隐式学习的局限; 构建多层次空间注意力机制, 克服了现有注意力方法单一化设计的不足; 提出递进式协同优化框架, 将结构先验与动态学习有机融合, 有效解决大规模多智能体系统的维度爆炸问题. 为验证所提方法的有效性, 本文以典型串并联复杂拓扑的连续搅拌釜式反应器(continuous stirred tank reactor, CSTR)仿真系统和盐湖化工洗涤−结晶实际过程为研究对象, 通过仿真与实际工业环境的对比实验, 评估了方法的性能优势与工程适用性. 综上所述, 本文的主要贡献包括:
1)提出基于拉普拉斯谱分析的结构解析框架, 自动识别复杂系统的内在特性, 为任务分解与通信机制设计提供理论支撑;
2)设计融合时序注意力与多层次空间注意力的动态模式识别机制, 实现了对历史轨迹关键信息的有效提取和关键优化域的自适应识别;
3)构建层次化自适应协同决策架构, 通过局部优化与全局协调的两阶段策略, 在保证决策效率的同时提升了系统的整体性能;
4)在典型仿真系统与实际工业场景中验证所提方法的有效性、稳定性与工程适用性.
图1 基于图谱理论的多智能体强化学习协同优化框架
图2 闭环级联特征的CSTR系统示意图
图3 盐湖化工洗涤−结晶过程示意图
针对流程工业中存在的多变量强耦合与协同控制困难等关键挑战, 本文提出一种基于图谱感知多智能体强化学习的复杂拓扑流程工业多工序协同优化方法. 该方法以拉普拉斯谱分析为基础解析系统的流程拓扑结构, 借助时序注意力机制建模动态演化模式, 并通过多层次注意力网络识别关键控制域. 在此基础上构建层次化自适应协同决策架构, 实现智能体间高效而稳定的协作控制. 实验结果表明, 所提方法在CSTR串并联系统中相较最优基准算法实现了41.2%的性能提升, 在盐湖化工实际工业过程中实现了2.2%的性能改善, 且在训练稳定性方面表现显著优于其他方法. 这些结果充分验证图谱感知机制在复杂工业过程协同优化中的有效性与实用价值, 并为流程工业的智能化协同控制提供了新颖的理论支撑与技术路径.
从方法的有效性来看, 所提框架中的拉普拉斯谱分析能够有效识别系统的内在结构特性, 时序注意力机制成功捕捉历史轨迹中的关键依赖特征, 多层次注意力网络实现了对关键控制域的动态识别. 从适用性角度分析, 该方法适用于具有明确拓扑连接关系、中等规模且能够获得稳定历史数据的流程工业系统. 然而, 当前方法仍存在一些限制. 首先, 拉普拉斯谱分析和多层次注意力机制的计算开销随系统规模增长较快, 限制了在大规模工业系统中的应用. 其次, 该方法对历史数据的质量要求较高, 在数据稀缺或噪声较大的环境中可能面临性能下降. 此外, 在工况剧烈变化或设备老化导致系统特性漂移时, 模型的适应性仍需进一步验证.
未来的研究将聚焦于提升该方法在大规模工业系统中的可扩展性, 进一步完善自适应图结构的动态学习机制, 并探索其与数字孪生技术的深度融合, 以拓展其在更加多样化和复杂化工业场景中的应用潜力. 同时, 将加强在不同噪声水平和数据质量条件下的鲁棒性研究, 并推进与实际工业系统的集成部署工作.
作者简介
刘柢炬
中南大学博士研究生. 主要研究方向为深度学习建模, 复杂工业过程优化控制, 强化学习. E-mail: djliu@csu.edu.cn
王雅琳
中南大学自动化学院教授. 主要研究方向为复杂工业过程的建模与优化控制, 智能控制以及过程仿真. E-mail: ylwang@csu.edu.cn
刘晨亮
中南大学自动化学院讲师. 主要研究方向为深度学习, 复杂工业过程建模与优化控制. 本文通信作者. E-mail: lcliang@csu.edu.cn
罗彪
中南大学自动化学院教授. 主要研究方向为智能控制, 强化学习, 深度学习和自主决策. E-mail: biao.luo@hotmail.com
桂卫华
中国工程院院士, 中南大学自动化学院教授. 主要研究方向为复杂工业过程建模, 优化与控制应用和故障诊断与分布式鲁棒控制. E-mail: gwh@csu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-6 18:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社