|
引用本文
汤健, 崔璨麟, 夏恒, 乔俊飞. 面向复杂工业过程的虚拟样本生成综述. 自动化学报, 2024, 50(4): 688−718 doi: 10.16383/j.aas.c221006
Tang Jian, Cui Can-Lin, Xia Heng, Qiao Jun-Fei. A survey of virtual sample generation for complex industrial processes. Acta Automatica Sinica, 2024, 50(4): 688−718 doi: 10.16383/j.aas.c221006
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c221006
关键词
复杂工业过程,虚拟样本生成,数据驱动建模,样本覆盖区域
摘要
用于复杂工业过程难测运行指标和异常故障建模的样本具有量少稀缺、分布不平衡以及内涵机理知识匮乏等特性. 虚拟样本生成(Virtual sample generation, VSG)作为扩充建模样本数量及其涵盖空间的技术, 已成为解决上述问题的主要手段之一, 但已有研究还存在缺乏理论支撑、分类准则与应用边界模糊等问题. 本文在描述复杂工业过程难测运行指标和异常故障建模所存在问题的基础上, 梳理虚拟样本定义及其内涵, 给出面向工业过程回归与分类问题的VSG实现流程; 接着, 从样本覆盖区域、实现流程与推广应用等方向进行综述; 然后, 分析讨论VSG的下一步研究方向; 最后, 对全文进行总结并给出未来挑战.
文章导读
信息技术的不断发展和工业自动化进程的不断深入, 利用多类型传感器采集的海量多模态数据能够支撑构建“工业大数据”驱动模型, 这已成为复杂工业过程实现智能控制、决策与优化的重要手段[1-4]. 然而, 复杂工业过程的产品质量、污染物排放等难测关键运行指标和异常故障的建模数据依然存在量少稀疏、分布不平衡以及内涵机理知识匮乏等问题, 难以支撑构建准确且鲁棒的检测与识别模型[5-7]. 以城市固废焚烧(Municipal solid waste incineration, MSWI)过程为例, 该过程排放的痕量有机污染物二噁英(Dioxin, DXN) 因受限于在线检测技术的复杂度和离线化验技术的高成本, 使得具有真值的建模样本数量极少[8-9]; 此外, 已有的真值样本通常是在某种稳定的次优运行工况下获得的, 极优工况和潜在异常工况下的样本数据是缺失的. 这些有限数量的真值样本中显然缺乏有助于洞悉运行指标的相关机理, 造成与建模相关的内涵知识匮乏. 为解决上述问题, 从扩增建模样本数量的视角, 早期模式识别领域的研究学者Poggio和Vetter提出虚拟样本生成(Virtual sample generation, VSG)的概念[10], 其核心思想是基于已有数据通过某种方式生成并不存在的样本以扩充数据空间, 其目前已广泛地应用于图像处理[11]、人脸识别[12]以及可靠性分析[13]等领域. 图1 给出了近20年内与VSG相关的文献发表数量与被引频次的变化情况.
图 1 Web of Science上的VSG论文数量与被引频次
由图1可知, 有关VSG的论文发表量和被引量在总体上呈现上升趋势, 表明该技术已逐渐受到研究学者的重视. 虽然, Niyogi等从数学视角证明了虚拟样本等价于将先验知识合并为正则化矩阵[14], 但复杂工业过程固有的机理不清、强耦合和非线性等特性, 使得从该类过程获得明确的先验知识存在难度大和耗时长等问题, 这导致目前研究学者大多聚焦于如何从小样本中学习知识进而生成虚拟样本的研究[15]. 随着变分自编码器(Variational autoencoder, VAE)[16-18]、生成对抗网络(Generative adversarial network, GAN)[19-20] 等生成模型的发展, 使得VSG的研究热度得到进一步的提升[15]. 随着工业数字孪生[21-22]、元宇宙[23-24]等概念的发展和日趋成熟, 笔者认为, VSG技术将成为上述技术发展中不可或缺的元素之一. 综上, VSG技术的逐步完善与成熟, 能够为实际复杂工业过程的运行指标建模和异常故障识别乃至工业数字孪生和元宇宙提供有效支撑, 有必要对当前VSG的研究动态与未来趋势进行总结与展望.
本文以工业过程为背景, 全面综述VSG在工业过程中的研究现状及未来的发展方向, 主要工作如下: 第1节从样本稀缺、样本分布完备性差和样本内涵机理知识匮乏共3个视角总结工业过程VSG所面临的问题, 并梳理虚拟样本定义、输入/输出空间虚拟样本内涵以及面向工业过程的实现流程; 第2节根据目前的研究成果和实际工业过程的特点, 从样本覆盖区域、实现流程与推广应用共3个方面进行综述; 第3节给出相关的数据集和开源软件; 第4节进行对比与讨论, 并分析下一步的发展方向; 第5节对全文工作进行总结并给出未来挑战.
图 2 样本输入空间内虚拟与真实样本间的关系
图 3 三维空间下的不同虚拟样本输入生成方法示意图
本文总结了针对复杂工业过程难测运行指标和异常故障进行建模的真实样本所存在的问题, 梳理了虚拟样本的定义和内涵, 给出了工业过程VSG的实现流程, 综述了面向样本覆盖区域、实现流程与推广应用3个方向的研究现状, 讨论了未来研究方向. 结合上述分析结果, 笔者认为未来挑战包括: 1) 构建合成数据集进行VSG理论分析, 进行样本质量与生成模型的协同优化; 2) 利用对抗学习对机理知识、经验规则和数据驱动模型进行动态进化选择, 构建具有最优生成流程的智能VSG; 3) 同时从输入和输出角度评估本文所提出的相似域样本空间, 采用基于样本和模型的迁移学习构建虚拟样本输入生成模型和输出映射模型; 4) 面向工业过程的物理实体构建混合机理和数据驱动的数字孪生系统, 依据实际工业数据的动态变化对数据孪生模型进行预测性调整以确保虚拟样本质量和预测模型性能; 5) 利用未标记样本提升虚拟样本的可信度, 结合监督和半监督学习算法的差异度和主动学习算法的灵活性, 构建面向多视角学习机制的集成VSG和结合工业过程概念漂移的动态VSG.
作者简介
汤健
北京工业大学信息学部教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn
崔璨麟
北京工业大学信息学部硕士研究生. 主要研究方向为城市固废焚烧过程风险预警, 虚拟样本生成. E-mail: cuicanlin@emails.bjut.edu.cn
夏恒
北京工业大学信息学部博士研究生. 主要研究方向为树结构深/宽度学习结构设计与优化, 城市固废焚烧过程二噁英排放预测. E-mail: xiaheng@emails.bjut.edu.cn
乔俊飞
北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeiq@bjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-30 10:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社