|
引用本文
徐少平, 林珍玉, 陈孝国, 李芬, 杨晓辉. 采用多通道浅层CNN构建的多降噪器最优组合模型. 自动化学报, 2022, 48(11): 2797−2811 doi: 10.16383/j.aas.c190736
Xu Shao-Ping, Lin Zhen-Yu, Chen Xiao-Guo, Li Fen, Yang Xiao-Hui. Optimal combination of image denoisers using multi-channel shallow convolutional neural network. Acta Automatica Sinica, 2022, 48(11): 2797−2811 doi: 10.16383/j.aas.c190736
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190736
关键词
多降噪器最优组合,一致性神经网络,多通道浅层卷积神经网络,降噪效果提升,执行效率
摘要
现有的一致性神经网络(Consensus neural network, CsNet)利用凸优化和神经网络技术将多个降噪算法(降噪器)输出的图像进行加权组合(融合), 以获得更好的降噪效果, 但该优化模型在降噪效果和执行效率方面仍有较大改进空间. 为此, 提出一种基于轻量型多通道浅层卷积神经网络(Multi-channel shallow convolutional neural network, MSCNN)构建的多降噪器最优组合(Optimal combination of image denoisers, OCID)模型. 该模型采用多通道输入结构直接接收由多个降噪器输出的降噪图像, 并利用残差学习技术合并完成图像融合和图像质量提升两项任务. 具体使用时, 对于给定的一张噪声图像, 先用多个降噪器对其降噪, 并将降噪后图像输入OCID模型获得残差图像, 然后将多个降噪图像的均值图像与残差图像相减, 所得到图像作为优化组合后的降噪图像. 实验结果表明, 与CsNet组合模型相比, 网络结构更为简单的OCID模型以更小的计算代价获得了图像质量更高的降噪图像.
文章导读
图像在获取、存储和传输过程中, 外界干扰或设备固有缺陷会使图像受到不同程度的噪声干扰[1-3].这些噪声(常被假设为高斯白噪声)会导致图像中纹理边缘细节被破坏, 使得图像质量下降[4-5]. 早期, 研究者通常采用高/低通滤波器处理噪声图像, 利用相邻像素点亮度值的线性、非线性组合, 实现对中心像素点的最佳估计, 以达到去除噪声的目的. 这种方法实现简单、执行效率高, 然而由于在降噪过程中未充分考虑图像局部结构特点, 会导致降噪后的图像边缘细节被模糊甚至丢失. 2005年, Buades等[6]提出了具有里程碑意义的非局部均值(Non local means, NLM)降噪算法. NLM降噪算法基于自然图像中具有大量重复的局部结构性质, 即所谓的非局部自相似性(Nonlocal self-similarity, NSS), 获得了比滤波类降噪算法更好的降噪效果. 但是由于需要在图像内大量搜索与待复原图块相似的图块以提高降噪效果, 因此导致NLM降噪算法的执行时间较长. 2007年, Dabov等[7]提出一种BM3D (Block matching and 3D-filtering)降噪算法. 该算法充分利用图像的NSS和稀疏特性, 采用图块堆叠和协同滤波技术实现了降噪效果和执行效率之间的较好平衡. 因其良好的综合性能, BM3D 降噪算法常被研究者们列为基准对比算法. 近十年来, 研究者们为进一步提高降噪效果, 多利用关于自然的某种先验知识构建目标函数, 通过求解目标函数的最优解来达到降噪目的. 依据所使用的自然图像先验知识的不同, 基于稀疏表示[8-10]和基于低秩最小化[11-14]的图像降噪算法被相继提出, 比较经典的工作有2013年提出的NCSR (Non-local centralized sparse representation)[8], 2014年提出的WNNM (Weighted nuclear norm minimization)[11] 等. 虽然这些降噪算法的降噪效果优于BM3D降噪算法, 但最优目标函数值的求解通常以复杂的迭代优化过程实现, 使得算法的时间复杂度非常高.
近年来, 深度学习技术因其强大的特征学习和非线性映射能力在图像降噪领域取得巨大成功[15-23], 其中尤以基于深度卷积神经网络(Deep convolutional neural network, DCNN)构建的降噪模型发展迅速[22-25]. 较典型的工作有: 2017年提出的DnCNN(Denoising convolutional neural network)[22], 2018年提出的FFDNet (Fast and flexible denoising convolutional neural network)[23]等. 在大量噪声图像–无失真图像训练数据集上, 基于DCNN构建的降噪模型以网络输出图像与原始无失真图像之间的Loss函数最小值为目标驱动, 学习并调整DCNN模型中的网络参数完成图像降噪任务. 基于DCNN 的降噪模型依赖网络结构隐式地学习图像中先验知识, 展现出强大的图像先验知识建模能力(非线性映射能力), 能够避免基于稀疏和低秩模型等优化降噪模型中构建目标函数困难的问题, 进一步提高了复原图像的质量. 此外, 受高性能图形处理单元(Graphic processing unit, GPU)并行计算技术的支持, 基于DCNN进行图像降噪能够获得极高的执行效率. 然而, 这类本质上基于数据驱动的降噪模型, 其降噪性能也同时受所采用技术路线内在固有特性的制约, 即必须保证待降噪图像与用于训练模型的图像集合在受噪声干扰程度上是近似的, 才能获得最佳的降噪效果, 存在数据依赖缺陷[4].
图像降噪作为图像处理领域的基础性问题, 追求更好的图像复原效果(更高的图像质量)一直是推动研究者研究新型降噪算法的动力. 迄今为止, 虽然已提出了很多不同类型的图像降噪算法, 并且在降噪效果上不断改进, 但提升幅度越来越小. 而且, 目前很难找到某个单一降噪算法能够对各种不同图像内容、不同程度的噪声图像都能获得较好的降噪效果[2]. 例如, BM3D、NCSR、WNNM等算法对于含有丰富纹理细节的自然图像可以获得比较好的降噪效果, 但对于无太多重复性局部结构内容的自然图像则表现不佳; 而DnCNN、FFDNet等基于深度学习的降噪模型则能在无太多重复性局部结构图像上获得较好的降噪效果, 但也要求待降噪图像与训练降噪模型所用图像集合中的图像存在类似结构. Chatterjee等[26]对主流降噪算法的降噪效果所能达到的极限展开了研究, 其研究结果表明目前各个降噪算法的降噪性能虽然在不断改进, 但是离理论上的极限值尚有一定距离. 换言之, 各个降噪算法的降噪效果仍有较大改进空间. 然而, 目前仅依靠单个降噪算法对降噪效果的提升越来越困难.
最近, Choi等[2]提出一种被称为一致性神经网络(Consensus neural network, CsNet)的最优组合模型, 该模型采用将多个降噪算法(降噪器)输出的降噪后图像进行优化组合(融合)的方式, 实现了降噪效果较大幅度的提升. 具体而言, CsNet模型首先利用MSE (Mean square error)估计器来估计各个降噪器输出图像关于无失真图像的MSE估计值, 通过求解凸优化问题确定各个降噪器输出图像在组合图像中所占的最优权重值; 然后采用加权组合的方式, 将各个降噪器输出图像加权融合为一张初步优化图像; 在此基础上, CsNet模型再通过图像质量提升(Booster)模块对初步优化图像的图像质量进行多次级联提升. 虽然CsNet模型实现了图像降噪效果的提升, 但是初步融合阶段对多个降噪器输出图像所设置的权重值是针对整张图像(所有像素点的权重值完全相同), 加权处理的粒度非常粗糙(未考虑图像局部细节各种复杂的变化结构模式), 导致其初步优化图像的图像质量并不高. 因此CsNet组合优化模型需要多次使用Booster模块对图像质量进行级联提升, 才能达到令人满意的降噪效果. 这使得CsNet组合优化模型设计、训练的复杂度非常高, 导致执行时间比较长.
受CsNet模型启发, 本文提出一种新的基于多通道浅层CNN (Multi-channel shallow convolutional neural network, MSCNN)构建的多降噪器最优组合(Optimal combination of image denoisers, OCID)模型. 与CsNet 组合优化模型的实现策略不同, OCID 模型没有显式的权重值设置过程, 也无需后期的图像质量提升过程, 而是将CsNet模型中的优化组合和图像质量提升两个模块有机集成到MSCNN模型中, 利用多通道网络结构直接接收由多个降噪器获得的输出图像. 采用残差学习技术提升图像质量, 经过模型处理后直接获得残差图像, 将多个降噪器输出图像的均值图像减去残差图像即可得到优化组合后的图像.
图 1 文献[2]中提出的CsNet模型架构图
图 2 多通道神经网络OCID模型架构
图 4 BSD测试图像集合中有代表性的10张图像
受Choi等[2]组合多个降噪器提升单一降噪算法降噪效果思想的启发, 本文提出一种基于MSCNN的OCID模型. 对于给定的噪声图像, 该模型首先利用多个降噪器对其进行降噪以获得多个初步降噪图像, 然后由预训练的MSCNN模型接收这些初步降噪图像并自动完成最优组合(融合), 高质量输出优化后的降噪图像. 与Choi等提出的CsNet组合模型相比, 本文所提出的OCID模型结构更为简单, 图像质量提升更为明显, 且执行效率更高. 需要说明的是, 目前OCID模型使用BM3D与DnCNN 2种降噪算法作为基本降噪器, 而经典BM3D算法并没有使用GPU硬件加速能力, 这在一定程度上降低了OCID模型整体的执行效率. 未来可将BM3D算法用CNN卷积化技术实现[31], 这样OCID模型在初步降噪和图像融合两个阶段均可以利用GPU硬件加速能力, 可实现实时降噪, 这将会使OCID 模型较现有的单一降噪算法在降噪效果和执行效率两个方面均具有显著优势.
作者简介
徐少平
南昌大学数学与计算机学院计算机系教授. 主要研究方向为数字图像处理与分析, 计算机图形学, 虚拟现实和手术仿真. 本文通信作者. E-mail: xushaoping@ncu.edu.cn
林珍玉
南昌大学数学与计算机学院硕士研究生. 主要研究方向为图像处理, 机器学习.E-mail: 401030918076@email.ncu.edu.cn
陈孝国
南昌大学数学与计算机学院硕士研究生. 主要研究方向为图像处理, 机器学习. E-mail: 411014519013@email.ncu.edu.cn
李芬
南昌大学数学与计算机学院硕士研究生. 主要研究方向为图像处理, 机器学习. E-mail: 411014519034@email.ncu.edu.cn
杨晓辉
南昌大学信息工程学院能源与电气工程系教授. 主要研究方向为故障诊断, 图像处理. E-mail: yangxiaohui@ncu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社