博文

一种聚类辅助的多智能体深度强化学习方法可面向半导体制造的多目标并行批处理机调度精选

已有 250 次阅读 2026-2-25 11:06 |系统分类:论文交流

A clustering-aided multi-agent deep reinforcement learning for multi-objective parallel batch processing machines scheduling in semiconductor manufacturing

一种聚类辅助的多智能体深度强化学习方法可面向半导体制造的多目标并行批处理机调度

东华大学Peng Zhang团队开发出一种聚类辅助的多智能体深度强化学习方法可面向半导体制造的多目标并行批处理机调度。相关论文于2024年8月31日发表在国际学术期刊《测量与控制》上。

据研究人员介绍，在半导体制造中，批量处理机往往是生产瓶颈，其调度问题对生产管理至关重要。现有关于多目标批量机器调度的研究主要集中于进化算法，难以满足在线调度需求。

为应对不相容工件族、动态工件到达、机器产能限制及多目标优化等挑战，研究人员提出一种聚类辅助的多智能体深度强化学习方法（CA-MADRL）来解决该调度问题。具体而言，为获得多样化的非支配解，研究人员首先设计了一种名为多子种群快速精英非支配排序遗传算法（MS-NSGA-II）的离线多目标调度算法以获取帕累托前沿，并采用基于余弦距离的聚类算法分析帕累托前沿解的分布特征，以指导多智能体深度强化学习中奖励函数的设计。

为实现多目标优化，研究人员针对不同优化方向训练了多个强化学习基础模型，每个模型包含批形成智能体和批调度智能体。为降低模型训练的时间复杂度，研究人员在不同强化学习基础模型间引入了参数共享策略。通过对基于某半导体制造企业实际生产数据设计的16个算例进行验证，结果表明该方法不仅能满足制造系统对并行批处理机的高频调度需求，还能有效降低工件总延迟和机器能耗。

图片1.png