IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于多目标PSO混合优化的虚拟样本生成

已有 500 次阅读 2024-5-20 11:18 |系统分类:博客资讯

引用本文

 

王丹丹, 汤健, 夏恒, 乔俊飞. 基于多目标PSO混合优化的虚拟样本生成. 自动化学报, 2024, 50(4): 790811 doi: 10.16383/j.aas.c211091

Wang Dan-Dan, Tang Jian, Xia Heng, Qiao Jun-Fei. Virtual sample generation method based on hybrid optimization with multi-objective PSO. Acta Automatica Sinica, 2024, 50(4): 790811 doi: 10.16383/j.aas.c211091

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211091

 

关键词

 

小样本建模,虚拟样本生成,混合优化,多目标粒子群优化,分布相似度 

 

摘要

 

受限于检测技术难度、高时间与经济成本等原因, 难测参数的软测量模型建模样本存在数量少、分布稀疏与不平衡等问题, 严重制约了数据驱动模型的泛化性能. 针对以上问题, 提出一种基于多目标粒子群优化(Multi-objective particle swarm optimization, MOPSO)混合优化的虚拟样本生成(Virtual sample generation, VSG)方法. 首先, 设计综合学习粒子群优化算法的种群表征机制, 使其能够同时编码用于连续变量和离散变量; 然后, 定义具有多阶段多目标特性的综合学习粒子群优化算法适应度函数, 使其能够在确保模型泛化性能的同时最小化虚拟样本数量; 最后, 提出面向虚拟样本生成的多目标混合优化任务以改进综合学习粒子群优化算法, 使其能够适应虚拟样本优选过程的变维特性并提高收敛速度. 同时, 首次借鉴度量学习提出用于评价虚拟样本质量的综合评价指标和分布相似指标. 利用基准数据集和真实工业数据集验证了所提方法的有效性和优越性.

 

文章导读

 

实现复杂工业过程的智能控制和绿色生产需要对产品质量、能耗物耗、污染排放等难测参数(如城市固废焚烧(Municipal solid waste incineration, MSWI)过程中的有机污染物二噁英(Dioxin, DXN)的排放浓度[1])进行实时检测[2]. MSWI是目前世界范围内应用最为广泛的城市固废无害化、减量化和资源化处理手段[3-4]以及国家十四五规划鼓励推行技术, 该过程中被严格限制排放的DXN被称作世纪之毒”[5]. 以实时、准确、低成本方式实现DXN的检测是降低其排放控制的关键技术之一, 也是目前业界亟待解决的难题[6]. 因工业过程长期在稳态模式下运行, 这使得现场采集的数据所对应的工况极为相似, 通过实验设计方式或突发工况情景获取非稳态模式过程数据、异常数据甚至故障数据的风险很高或不被允许, 进而导致有效建模样本数据稀少且分布不均衡[7-8]. 另外, 诸如选矿磨矿[9]、柔性制造[10]和化工生产[11]等工业过程, 由于实时进行难测参数真值检测的技术难度大、离线化验的时间与经济成本高等原因, 使得工业过程难测参数建模面临着大数据、小样本问题[12]. 目前, 通过虚拟样本生成(Virtual sample generation, VSG)技术扩充建模样本数量已成为解决上述小样本问题的有效手段之一, 也是目前学术界的研究的难点和热点[9].

 

由模式识别领域首次提出的VSG技术通过扩增原始建模样本的方法, 解决面向分类的小样本问题[13], 其本质是通过撷取小样本间的缺失信息生成适当数量的虚拟样本[14], Niyogi[15]从数学上证明了VSG等效于正则化策略. 目前, VSG技术已被成功地应用于癌症识别[16]、可靠性分析[17]、机械振动信号建模[9]等领域, 其在图像识别领域的应用尤为广泛[18-21]. 主要策略是结合先验知识, 通过几何变换等操作生成虚拟图像. 针对复杂工业过程, 只有具有长期运行经验的领域专家才能抽象出明确的先验知识, 但也存在一定的主观性和随意性. 针对先验知识无法获取或提取难度大的问题, VSG的研究开始聚焦于如何从已知样本中汲取知识以生成虚拟样本. Li[22]为解决制造系统早期样本较少问题, 提出基于区间核密度估计的VSG, 核心是根据小样本数据估计总体分布后再生成虚拟样本. 进一步, Li[23]Lin[24]分别提出了基于双参数威布尔分布估计和多模态分布估计的VSG. 针对上述研究存在小样本分布不均衡情况下估计偏差较大的问题, Li[16]提出基于模糊理论信息扩散准则的整体趋势扩散(Mega-trend-diffusion, MTD)技术, 本质是通过数据分布趋势扩展样本空间, 并在扩展域内生成虚拟样本. 上述VSG研究主要面向分类问题, 特点在于仅需要为不同类别生成虚拟样本的输入即可; 相对于本文所面对的回归建模问题, 还需要考虑如何为合理的虚拟样本输入生成精准的虚拟输出. 因此, 面向回归的VSG的研究难度较大, 这也是相关文献较少的原因之一.

 

为使得虚拟样本输入能够均衡地填补真实小样本间的信息间隙, Zhu[11] 先利用距离准则识别信息空隙区域, 再进行Kriging插值; Zhang[25]先采用流形学习Isomap识别样本稀疏区域, 再进行插值; Chen[26]先采用查询策略获取稀疏区域, 再进行插值. 进一步, 同时考虑虚拟样本的输入和输出, Li[27]先基于树的趋势扩散技术进行区域扩展后, 再依据启发式机制同时生成输入与输出; Zhu[28]先依据多分布趋势扩散技术生成虚拟样本输入, 再通过小样本映射模型生成输出; He[29]和朱宝等[30]基于神经网络模型隐含层插值和缩放方式, 同时生成非线性输入与输出; Qiao[31]结合改进MTD技术与隐含层插值生成输入与输出. 此外, 针对物理含义清晰的工业过程实验数据, Tang[32]通过线性插值生成虚拟样本输入后, 再依据多个映射模型融合生成相应输出. 针对虚拟样本输入输出难以有效获得的问题, Li[33]先通过MTD进行域扩展再采用遗传算法(Genetic algorithm, GA)生成优化虚拟样本, Chen[34]采用粒子群优化(Par-ticle swarm optimization, PSO)算法生成虚拟样本. 上述算法的优点是同时考虑了数据属性间的相互影响, 但未予考虑所虚拟样本间的多样性和映射模型超参数对虚拟样本的影响.

 

总之, 为生成更为合理的虚拟样本, 已经存在诸多VSG方法. 考虑到虚拟样本与实际数据间存在的偏差, 这些不同方法所生成的虚拟样本间也必然存在着冗余性与互补性. 对此, 汤健等[35]提出面向已经生成的虚拟样本的优化选择策略, 虽然采用的用于获取虚拟样本输出的随机权神经网络(Random weight neural network, RWNN)映射模型具有结构简单、计算复杂度低、能够进行隐含层插值等特点, 但其固有的随机性使得所生成的虚拟样本输出精度难以保证. 随机森林(Random forest, RF)对于多数数据集均具有良好的表现, 能够处理具有离散、连续、高维等特性的数据[36]. 显然, RF作为生成虚拟样本输出的映射模型可以提高虚拟样本的质量. 此外, 由于映射模型的超参数取值影响虚拟样本的质量, 因此在生成虚拟样本的过程中, 对强关联性的超参数进行优化也是提高VSG的一个改进方向. 显然, 对映射模型的超参数和虚拟样本的选择进行同时优化属于连续变量和离散变量的混合优化问题, 这不仅需要确保超参数的优化过程不会提前收敛至局部最优, 也需要在进行大量虚拟样本优化选择时, 具有较好的收敛速度. 研究表明, 综合学习粒子群优化 (Comprehensive learning particle swarm optimization, CLPSO)算法依据所有其他粒子的历史最佳信息进行粒子更新, 能够保持种群多样性且防止过早收敛[37]. 此外, 笔者认为, 筛除冗余虚拟样本的关键在于如何对虚拟样本进行合理评价, 但目前对该问题的研究还不够深入. 另外, 由于虚拟样本引入的预测误差存在积累效应, 这使得虚拟样本的数量会影响建模性能; 但是, 以往研究主要通过实验确定虚拟样本最佳数量[38]. 林越等[39]基于信息熵理论推导得到虚拟样本的最佳数量, 但是实际上虚拟样本的最佳数量往往与建模数据质量具有较大的相关性. 显然, 有必要通过多目标优化策略实现对虚拟样本数量和质量的综合均衡.

 

综上所述, 面向工业过程回归建模的VSG研究存在以下难点: 1)针对原始小样本的分布稀疏与不均衡特性, 如何基于原始小样本探究实际数据的分布空间, 均衡地生成虚拟样本输入; 2)如何通过映射模型为虚拟输入生成合理的虚拟输出, 获得大量高质量具有冗余与互补特性的虚拟样本; 3)如何筛选出有效的高质量虚拟样本并确定其最佳数量; 4)如何对虚拟样本进行量化评价以支撑其筛选策略.

 

针对上述亟待解决的难点, 结合笔者已有研究成果, 本文提出一种基于多目标PSO混合优化的虚拟样本生成策略, 用于优化虚拟样本的生成与选择过程, 包括面向混合优化的粒子设计、面向VSG的适应度函数设计和面向VSG的多目标混合优化. 本文首次提出将VSG问题描述为多目标混合优化任务, 并首次采用度量学习的指标对虚拟样本的质量进行评价. 通过基准数据集和实际工业数据集实验, 验证了本文VSG方法的合理性和有效性.

 1  虚拟样本与真实样本间的关系

 2  基于MOPSO混合优化的VSG策略

 3  基于混合优化策略的粒子设计

 

针对工业过程回归建模时样本数量有限问题, 本文提出基于多目标PSO混合优化的VSG方法, 其创新性表现有以下3: 1)首次采用混合优化策略对VSG过程的超参数和样本选择过程进行同时优化, 确保虚拟样本的合理性和有效性; 2)改进CL-PSO算法对VSG过程进行多目标优化, 在确保模型泛化性能的同时, 尽可能地降低虚拟样本数量, 这样既保证了虚拟样本的整体质量, 也确定了虚拟样本的最佳数量; 3)提出新的面向虚拟样本质量的综合评价指标和分布相似度指标, 用于度量虚拟样本对建模性能的贡献度, 以及虚拟样本改善小样本分布的效果. 通过基准数据和工业数据仿真实验, 验证了本文方法的有效性.

 

目前, 面向工业过程小样本数据回归建模的VSG方法仍处于不断探索的阶段, 在如何确定样本的期望分布、如何针对不同研究领域小样本数据的特性从理论上确定虚拟样本最佳数量、如何提出更好的虚拟样本评价指标以度量虚拟样本和实际数据的差异等方向, 仍有待深入研究.

 

作者简介

 

王丹丹

北京工业大学信息学部硕士研究生. 主要研究方向为基于虚拟样本生成的小样本数据建模. E-mail: wangdandan@emails.bjut.edu.cn

 

汤健

北京工业大学信息学部教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn

 

夏恒

北京工业大学信息学部博士研究生. 主要研究方向为小样本数据建模和城市固废焚烧过程二噁英排放预测. E-mail: xiaheng@emails.bjut.edu.cn

 

乔俊飞

北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeiq@bjut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1434818.html

上一篇:基于多示例学习图卷积网络的隐写者检测
下一篇:仿生嗅觉感知系统气体识别和浓度估计模型
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-22 11:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部