IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于强化学习的浓密机底流浓度在线控制算法

已有 670 次阅读 2022-8-16 17:11 |系统分类:博客资讯

引用本文

 

袁兆麟何润姿姚超李佳, 班晓娟. 基于强化学习的浓密机底流浓度在线控制算法. 自动化学报, 2021, 47(7): 15581571 doi: 10.16383/j.aas.c190348

Yuan Zhao-Lin, He Run-Zi, Yao Chao, Li Jia, Ban Xiao-Juan. Online reinforcement learning control algorithm for concentration of thickener underflow. Acta Automatica Sinica, 2021, 47(7): 15581571 doi: 10.16383/j.aas.c190348

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190348

 

关键词

 

自适应动态规划,强化学习,最优控制,浓密机控制,神经网络 

 

摘要

 

复杂过程工业控制一直是控制应用领域研究的前沿问题. 浓密机作为一种复杂大型工业设备广泛用于冶金、采矿等领域. 由于其在运行过程中具有多变量、非线性、高时滞等特点, 浓密机的底流浓度控制技术一直是学界、工业界的研究难点与热点. 本文提出了一种基于强化学习技术的浓密机在线控制算法. 该算法在传统启发式动态规划 (Heuristic dynamic programming, HDP)算法的基础上, 设计融合了评价网络与模型网络的双网结构, 并提出了基于短期经验回放的方法用于增强评价网络的训练准确性, 实现了对浓密机底流浓度的稳定控制, 并保持控制输入稳定在设定范围之内. 最后, 通过浓密机仿真实验的方式验证了算法的有效性, 实验结果表明本文提出的方法在时间消耗、控制精度上优于其他算法.

 

文章导读

 

在现代复杂过程工业生产中, 对控制性能指标进行优化是不同控制算法、控制系统的首要任务. 在冶金、采矿领域等复杂过程工业场景下, 浓密机是一种被广泛应用的大型沉降工具, 它通过重力沉降作用可以将低浓度的固液混合物进行浓缩形成高浓度的混合物, 起到减水、浓缩的作用. 在对浓密机进行控制时, 底流浓度是核心控制指标. 该参量与其他过程监控变量如进料流量、进料浓度、出料流量、泥层高度有着复杂的耦合关系. 在大部分的实际生产过程中, 浓密机底流浓度的控制一般是操作员根据个人经验, 通过对底流流量设定值、絮凝剂流量设定值进行调节, 间接地使底流浓度追踪其工艺设定值. 但是由于浓密机运行过程具有非线性、多变量、高时滞等特点, 操作员难以维持底流浓度持续稳定, 浓度存在偏差的底流会导致产品质量退化以及增加工业生产成本.

 

浓密机是一种典型的复杂过程工业设备, 关于过程工业设备优化控制的研究一直是工业界、学术界研究的热点问题. 对于机械结构明确、且能够精确建立动态模型的工业设备, 可以采用基于模型的优化控制方法, : 实时优化控制(Realtime optimization, RTO)[1]、模型预测控制(Model predictive control, MPC)[2]. 但由于浓密机系统机械结构复杂、部分变量难以观测, 因此难以建立准确的数学模型近似其运转机理, 导致基于模型的方法无法适用于此类复杂工业设备的控制. 研究人员提出了基于数据驱动的控制方法来实现对此类无模型工业设备的控制. Dai[3]提出了用于解决赤铁矿研磨系统控制问题的数据驱动优化(Date driven opimization, DDO)控制算法. Wang[4]采用基于数据驱动的自适应评价方法解决连续时间未知非线性系统的无穷范围鲁棒最优控制问题.

 

近年来, 基于强化学习[5-6]理论的最优控制技术, 也称为自适应动态规划(Adaptive dynamic programming, ADP)[7-9]技术, 是控制领域的研究热点话题. 典型的自适应动态规划算法, HDP、双启发式动态规划(Dual heuristic programming, DHP)、动作依赖启发式动态规划(Action dependent heuristic dynamic programming, ADHDP)[8]等均采用多个神经网络分别对被控系统动态模型、控制策略、策略评价模型进行建模. 此类方法可以在模型未知的情况下以数据驱动的方式在线学习控制策略. Liu[10]提出了一种在线自适应动态规划算法用来解决离散时间多输入多输出仿射系统控制问题, 且该方法仅需要训练少量网络参数. Liu[11]采用一种基于强化学习的自适应跟踪控制技术解决多输入多输出系统容错控制问题. Xu[12]采用拉普拉斯特征映射算法提取被控系统全局特征, 并将该全局特征用于DHP算法中以增强值函数网络的近似能力.

 

近年来, 利用自适应动态规划方法解决过程工业控制问题也取得很大研究进展. Wei[13]将煤炭气化过程的最优追踪控制转化为双人零和最优控制问题, 并采用迭代自适应动态规划方法求解最优控制率, 同时给出了收敛稳定性的分析. Jiang[14]利用穿插学习策略迭代(Interleaved learning policy iteration, ILPL)实现了对浮选过程操作指标优化的控制, 获得了比传统值函数迭代(Value iteration, VI)、策略迭代(Policy iteration, PI)算法更佳的控制效果. Jiang[15]将强化学习与举升方法结合(Lifting technology), 实现了对浮选过程设备层与操作层双速率系统的最优控制.

 

上述算法均使用被控系统实时生成的数据对神经网络进行训练, 该训练方法忽略了系统在短期内产生的历史轨迹数据对模型学习的影响. 同时, 在工业场景下进行设备在线控制对算法实时性要求较高. 上述方法对于控制量的计算均依托于表征控制策略的神经网络, 而对于控制网络或动作网络的训练将产生较大的时间开销. 为了解决上述问题, 本文引入了短期经验回放技术[16-17]以对短期内的系统运行轨迹数据进行回放训练. 实验证明该技术有效增强了算法收敛稳定性, 且在其他ADP类在线控制算法中具有通用性. 同时本文根据浓密机系统特性提出了一种迭代梯度优化算法, 该算法可以在没有动作网络的情况下求解控制输入量. 实验表明该方法能够在提升控制精度的同时, 减少模型学习过程中产生的时间消耗.

 

本文主要贡献总结如下:

1) 提出了一种基于ADP算法架构的启发式评价网络值迭代算法 (Heuristic critic network value iteration, HCNVI). 该算法仅通过评价网络、模型网络和梯度优化算法即可求解系统最优控制输入.

2) 提出了一种适用于评价网络训练的短期经验回放技术. 训练评价网络时, 将短期内系统运行轨迹数据共同用于模型训练, 该方法可以有效增强评价网络收敛速度.

3) 通过浓密机仿真实验验证了HCNVI算法的有效性. 实验结果表明本文提出方法在时间消耗、控制精度上均优于其他对比方法.

 

本文正文部分组织如下: 1, 对浓密机沉降过程进行形式化描述. 2, HCNVI算法介绍以及利用该算法实现浓密机在线控制. 3, 通过两组仿真实验验证本文提出控制模型的有效性. 4节对本文研究工作进行总结.

 1  浓密过程示意图

 3  人工神经网络结构示意图

 4  迭代梯度下降过程可视化

 

本文提出了基于强化学习的自适应控制算法HCNVI, 该算法通过构建用于识别系统动态方程的模型网络以及用于估计折扣累计代价的评价网络来解决浓密机控制问题. 该方法可以在对浓密机系统未知的情况下, 仅利用浓密机系统输出数据以及历史运行数据即可实现在线学习并获得较好的控制效果. 另外本文提出的短期经验回放技术可以很好地增强评价网络训练的稳定性, 在其他自适应动态规划算法中也具有较好通用性. 根据仿真实验验证结果可以发现, 相比其他在线ADP算法, 由于HCNVI算法模型结构简单, 且具有较高的学习敏捷性, 因此在浓密机仿真系统控制问题中, HCNVI算法消耗了更少的训练时间但获得了更优的控制效果. 但是HCNVI算法也存在自身的局限性, 其去掉动作网络的可行性是建立浓密机具有运行缓慢、稳定的特性基础之上的. 但是当被控系统相对复杂且不再具有此特性时, 如系统状态量变化过程并不连续或系统运行速度较快, HCNVI依靠迭代算法求解的控制量难以保持最优性, 控制性能极有可能产生退化. 如何使HCNVI算法以及其他无动作网络类自适应动态规划类算法适用于此类复杂被控系统, 在优化训练时间消耗的同时保证其控制性能与收敛速度, 将是未来非常有意义的研究方向.

 

作者简介

 

袁兆麟

北京科技大学计算机与通信工程学院博士研究生. 2017年获得北京科技大学计算机科学与技术系学士学位. 主要研究方向为自适应动态规划和强化学习. E-mail: b20170324@xs.ustb.edu.cn

 

何润姿

北京科技大学计算机与通信工程学院硕士研究生. 2017年获得北京信息科技大学计算机科学与技术系学士学位. 主要研究方向为流体仿真和强化学习. E-mail: hrz.claire@gmail.com

 

姚超

北京科技大学的助理教授. 2009年获得北京交通大学计算机科学学士学位, 2016年获得北京交通大学信息科学研究所博士学位. 2014年至2015, 他在瑞士洛桑联邦理工学院担任访问博士. 2016年至2018, 他在北京邮电大学传感技术与商业研究所担任博士后. 主要研究方向为图像和视频处理,计算机视觉. E-mail: yaochao@ustb.edu.cn

 

李佳

北京科技大学计算机与通信工程学院硕士研究生, 主要研究方向为自适应动态规划, 自适应控制, 强化学习. E-mail: lijia1117@foxmail.com

 

班晓娟

北京科技大学教授, 中国人工智能学会常务理事. 主要研究方向为人工智能,自然人机交互,三维可视化技术. 本文通信作者. E-mail: banxj@ustb.edu.cn



https://blog.sciencenet.cn/blog-3291369-1351402.html

上一篇:SEAs导纳控制的μ综合方法
下一篇:融合显著性与运动信息的相关滤波跟踪算法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-10-4 14:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部