|
引用本文
汤健, 郭海涛, 夏恒, 王鼎, 乔俊飞. 面向工业过程的图像生成及其应用研究综述. 自动化学报, 2024, 50(2): 211−240 doi: 10.16383/j.aas.c230126
Tang Jian, Guo Hai-Tao, Xia Heng, Wang Ding, Qiao Jun-Fei. Image Generation and Its Application Research for Industrial Process: A Survey. Acta Automatica Sinica, 2024, 50(2): 211−240 doi: 10.16383/j.aas.c230126
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230126
关键词
工业过程,视觉感知,图像生成,生成图像评估与应用,城市固废焚烧
摘要
在面向工业过程的计算机视觉研究中, 智能感知模型能否实际应用取决于其对复杂工业环境的适应能力. 由于可利用的工业图像数据集存在分布不均、多样性不足和干扰严重等问题, 如何生成符合多工况分布的期望训练集是提高感知模型性能的关键. 为解决上述问题, 以城市固废焚烧(Municipal solid wastes incineration, MSWI)过程为背景, 综述目前面向工业过程的图像生成及其应用研究, 为进行面向工业图像的感知建模提供支撑. 首先, 梳理面向工业过程的图像生成定义和流程以及其应用需求; 随后, 分析在工业领域中具有潜在应用价值的图像生成算法; 接着, 从工业过程图像生成、生成图像评估和应用等视角进行现状综述; 然后, 对下一步研究方向进行讨论与分析; 最后, 对全文进行总结并指出未来挑战.
文章导读
工业物联网、大数据、人工智能、云计算等新一代信息技术的发展, 使得工业过程能够在传统的控制与决策基础上融入视觉感知信息[1]. 目前, 计算机视觉模型已能够依据工业图像建立运行工况识别模型、产品质量检测模型和难测参数量化模型[2-4], 这些模型对复杂工业环境适应能力的强弱通常是决定其能否实际应用的关键[5].
基于深度学习(Deep learning, DL)的视觉感知模型已在诸多领域得到广泛应用[6-9], 其具有以下优势: 1)能够自动学习特征; 2)能够获得具有完备性和非冗余性、强于人工获取方式的特征; 3)能够学习复杂问题的非线性可分“分界面”; 4)具有通用的问题解决思路和技术框架. 复杂工业过程中的图像存在可解释性差、干扰性强、标记成本高等问题, 这导致大量数据难以有效使用[10], 使得视觉感知模型在应用中存在识别精度低、鲁棒性差等现状[11]. 以城市固废焚烧(Municipal solid wastes incineration, MSWI)过程[12]为例, 存在的问题包括[13]: 1)燃烧过程中固有的飞灰、高温等因素使得火焰图像清晰度差; 2)在炉排前端和后端进行燃烧的极端异常火焰图像稀缺; 3)物料组分的不可控性和控制参数的波动性导致火焰图像的可解释性差; 4)火焰图像难以标记. 因此, 该领域对视觉信息的处理依然依靠运行专家, 存在难以避免的主观性和随意性[14]. 可见, 因存在异常图像稀缺、图像对比度低和噪声干扰大等问题, 常用视觉模型难以适用于具有强污染、多噪声和图像类别不完备等特性的工业过程. 显然, 实际训练集的分布不符合期望全集分布已成为制约计算机视觉应用和发展的主要因素之一.
如何获取符合期望分布的训练图像集仍是一个开放性的难题. 图像生成[15]是解决该难题的方法之一. 目前, 已有的相关研究包括: 文献[16-17]阐述玻尔兹曼机研究进展, 包括亥姆霍兹机、深度玻尔兹曼机(Deep Boltzmann machines, DBM)和深度置信网络(Deep belief network, DBN)等; 文献[18]梳理传统自编码器(Auto-encoder, AE)模型及其衍生变体模型的研究现状、分析其存在的问题与挑战和展望未来的发展趋势; 文献[19-21]概述生成对抗网络(Generative adversarial networks, GAN)的基本思想、梳理相关理论与应用研究; 文献[22]根据似然函数处理方法对深度生成模型进行分类, 包括基于受限玻尔兹曼机(Restricted Boltzmann machines, RBM)、变分AE (Variational AE, VAE)的近似方法[23]、能够避免求极大似然过程的诸如GAN的隐式方法、对似然函数进行适当变形的流模型和自回归模型; 文献[24]介绍基于去噪扩散概率模型(Denoising diffusion probabilistic models, DDPMs)[25-26]、噪声条件分数网络(Noise conditioned score networks, NCSNs)[27]和随机微分方程(Stochastic differential equations, SDEs)[28] 3种通用扩散模型框架, 并讨论与其他深度生成模型的关系. 但是, 这些文献综述主要聚焦于图像生成在计算机领域的应用, 其核心问题是如何更好地拟合训练集的概率密度分布. 因工业过程具有强污染、多噪声和不确定等特性而使得图像生成更加复杂, 其核心在于: 如何结合过程机理, 借助小样本集“创造”出期望的图像集. 因此, 有必要结合工业过程的实际特性, 针对性地对工业图像生成及其应用研究进行综述.
本文面向实际需求, 对工业过程图像生成、生成图像评估与应用进行综述, 主要贡献包括: 1)梳理面向工业过程的图像生成技术和工业领域潜在图像生成技术; 2)结合图像生成领域的研究成果, 面向实际工业过程需求, 依据流程将现有算法从工业图像生成、生成图像评估和应用3个方面进行综述; 3)提出面向工业过程图像生成及其应用的未来研究方向与挑战.
图 1 深度生成模型分类
图 3 AE模型论文出版情况
图 4 流模型论文出版情况
本文首先概述了图像生成研究现状, 阐释了工业过程图像生成的定义、流程、评估和应用需求; 然后, 简要分析了在工业领域具有潜在应用价值的图像生成算法; 接着, 依据图像生成流程, 从图像生成、生成图像评估和应用3个视角进行详细综述; 最后, 讨论了这些算法的技术特点和研究难点. 笔者认为, 为获得具有全局分布特性的工业过程生成图像样本集, 未来的研究主要面临着以下挑战:
1)大规模模型的融入: 随着深度学习的快速发展, 大规模模型在图像生成任务中已经展现出巨大潜力. 考虑到将大规模模型应用于工业过程中需要解决计算资源消耗、模型复杂度和训练效率等问题, 未来的挑战应致力于如何通过高效地融入大规模模型以提升特定行业的生成图像的质量和效率.
2)多模态场景的生成: 工业过程涉及多种场景和特征, 单一的生成模型难以覆盖所有工况下的图像生成需求. 研究人员可探索设计具有多模态特性的生成模型, 通过将每个模态专注于特定的工业场景或特征等方式提高生成图像的逼真度和多样性, 包括考虑但不限于在光照、材质、形状等方面的变化.
3)基于生成图像的关键参数检测和工业过程控制: 在工业过程中, 生成的图像中不仅包含视觉信息, 其还蕴含关键过程参数和控制信息. 研究如何准确提取生成图像中的关键过程参数并将其应用于工业过程的控制和优化是一个重要的开放性问题. 未来的研究可探索基于生成图像的关键过程参数检测和工业过程优化控制策略, 进而实现工业过程的智慧运行.
综上所述, 面向工业过程的图像生成及其应用研究面临着大规模模型的融入、多模态场景的生成和基于生成图像的关键参数检测和工业过程控制等挑战. 解决这些挑战将为工业领域提供更高质量、多样化和可控的图像生成技术, 并推动工业过程的创新和进步.
作者简介
汤健
北京工业大学信息学部教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn
郭海涛
北京工业大学信息学部硕士研究生. 主要研究方向为面向城市固废焚烧过程的图像处理研究. E-mail: guoht@emails.edu.cn
夏恒
北京工业大学信息学部博士研究生. 主要研究方向为面向决策树的深/宽度学习结构设计与优化, 城市固废焚烧过程二噁英排放预测. E-mail: xiaheng@emails.bjut.edu.cn
王鼎
北京工业大学信息学部教授. 2009年获得东北大学硕士学位, 2012年获得中国科学院自动化研究所博士学位. 主要研究方向为强化学习, 智能控制. E-mail: dingwang@bjut.edu.cn
乔俊飞
北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeiq@bjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-2 22:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社