|
引用本文
罗小同, 杨汶锦, 曲延云, 谢源. 基于全局局部协同的非均匀图像去雾方法. 自动化学报, 2024, 50(7): 1333−1344 doi: 10.16383/j.aas.c230567
Luo Xiao-Tong, Yang Wen-Jin, Qu Yan-Yun, Xie Yuan. Dehazeformer: Nonhomogeneous image dehazing with collaborative global-local network. Acta Automatica Sinica, 2024, 50(7): 1333−1344 doi: 10.16383/j.aas.c230567
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230567
关键词
图像去雾,卷积神经网络,Transformer,特征融合,稀疏自注意力
摘要
近年来, 基于卷积神经网络(Convolutional neural network, CNN) 的图像去雾方法在合成数据集上取得了显著的进展, 但由于真实场景中存在雾分布不均的问题, 卷积运算的局部感受野难以有效捕获到上下文指导信息, 从而导致全局结构信息丢失. 因此, 真实场景下的图像去雾任务面临着巨大的挑战. 考虑到Transformer具有捕获长距离语义信息依赖关系的优势, 有利于引导全局结构信息重建. 然而, 标准Transformer结构的高计算复杂度阻碍了其在图像恢复中的应用. 针对上述提到的问题, 提出一个由Transformer和卷积神经网络组成的双分支协同非均匀图像去雾网络Dehazeformer. Transformer分支用于提取全局结构信息, 同时设计稀疏自注意力模块(Sparse self-attention modules, SSM) 以降低计算复杂度. 卷积神经网络分支用于获取局部信息, 从而恢复纹理细节. 在真实非均匀有雾场景下的实验结果表明, 该方法不管是在客观评价还是在主观视觉效果方面均达到优异的性能.
文章导读
雾霾是由空气中的烟雾、灰尘等漂浮颗粒造成的一种恶劣大气现象, 这些漂浮在空中的颗粒会对光线进行吸收和散射, 导致图像成像质量下降, 如模糊、对比度低、颜色失真等. 低质量图像无疑会对下游的视觉任务 (如自动驾驶和监控) 造成严重的影响. 对于自动驾驶系统, 雾的出现对其检测其他车辆、行人等造成了巨大的困难; 对于监控等设备, 雾会导致成像退化, 从而使监控内容丢失.
图像去雾旨在提高图像的对比度、恢复图像的细节以及对图像颜色进行校正, 重建出干净清晰图像. 随着深度学习的发展, 图像去雾领域取得了巨大的突破. 通常使用大气散射模型[1]来对雾的产生进行物理建模. 如图1所示, 空气中的烟雾等漂浮颗粒对光源发出的光线进行散射, 从而导致成像目标返回到成像设备的光线被衰减, 因此在有雾天气下, 成像设备得到的是退化图像. 大气散射模型的计算公式可以表示为
I(x)=J(x)t(x)+A(1−t(x)) (1)
其中, x为像素点的坐标位置; I是有雾图像, 由成像设备所得; J为对应的干净无雾图像; A表示大气光; t表示透射率, 其计算公式可以表示为
t(x)=e−βd(x) (2)
其中, d表示成像设备到成像目标之间的距离, 即景深; β为散射系数. 由式 (2) 可知, 透射率t与景深d呈负相关. 结合式 (1) 和式 (2) 可知, 图像去雾的关键在于求解大气光A和透射率t, 并且该过程是一个不适定问题.
图 1 大气散射模型示意图
针对不同类型的雾气, 需要采用不同的去雾方法. 一般来说, 可以将雾化程度分为均匀雾和非均匀雾两种类型. 均匀雾一般是由于大范围干湿度差异而形成的, 所以其浓度基本上是恒定的; 而非均匀雾则更加复杂, 它往往是由于环境中有某些物质 (如汽车尾气、火灾烟雾等) 导致局部空气中含量过高而产生的. 针对这两种类型的雾气, 在处理图像时需要使用不同的去雾原理. 对于均匀雾, 一般采用透射率模型来处理; 而对于非均匀雾, 则需要采用更复杂的网络模型来学习复杂场景下的光传输、散射情况. 因此, 处理非均匀雾的方法比均匀雾更加复杂, 需要更多的技术手段和经验.
当前一些主流的图像去雾方法[2−5]无需估计雾成像参数, 而是直接通过卷积神经网络(Convolutional neural network, CNN) 从合成的均匀有雾−清晰成对数据中学习有雾图像到清晰图像之间的映射. 但由于卷积核感受野受限, 这一类方法在非均匀有雾场景下表现不佳. 其主要原因为: 由于合成数据集是由大气散射模型合成的均匀有雾图像, 而真实世界的有雾场景大多是比较复杂的, 导致这些方法难以泛化到真实有雾场景.
近年来, 真实场景去雾任务受到越来越多的关注, 图像恢复和增强新趋势以及图像和视频处理挑战 (New trends in image restoration and enhancement workshop and challenges on image and video processing, NTIRE) 在2020年和2021年均组织了非均匀图像去雾挑战赛, 并提供了真实世界非均匀有雾数据集. 其中优胜参赛方案[6−9]利用卷积神经网络强大的纹理细节恢复能力, 在低浓度有雾区域获得了良好的重建效果, 但是在高浓度有雾区域的表现却不尽如人意. 主要原因如下: 1) 卷积运算是一个局部特征表示, 缺乏全局特征表示; 2) 卷积神经网络滤波器是空间不变的, 即相同的卷积核处理所有位置的特征, 这会导致在高浓度的有雾区域出现伪影.
Transformer在自然语言处理 (Natural language processing, NLP) 领域取得巨大成功. 受此启发, 许多高层计算机视觉任务都尝试使用Transformer 替代卷积神经网络, 其可以很好地获取全局特征和远程语义信息依赖. 由于高层计算机视觉任务仅需提取可判别性信息用于决策, 不需要对图像进行纹理细节重建, 因此基于Transformer的方法在高层计算机视觉任务上取得了优异的性能. 由于缺乏局部信息提取能力, Transformer在纹理细节上恢复不足, 而纹理细节的恢复在底层视觉任务中是至关重要的, 直接影响重建图像的质量.
因此, Transformer和CNN结合有利于非均匀有雾图像的结构和纹理重建. 已有Transformer和CNN结合的非均匀去雾方法, 如Dehamer[10]、ITBdehaze[11], 主要以图像块作为Transformer的输入, 具有较高的计算复杂度. 另外, 其中自注意力模块专注于建立token之间的远程依赖关系, 并利用MLP来建模, 忽略了空间维度上的局部性, 无法充分扩展感受野, 从而影响非均匀去雾模型的优化能力.
本文主要针对非均匀图像去雾任务, 其图像不同区域包含浓雾和薄雾, 符合真实场景下的雾成像情况. 为解决上述问题, 本文设计一个由 Transformer 分支和卷积神经网络分支组成的双分支结构Dehazeformer, 其可以充分发挥卷积神经网络的局部纹理细节重建能力和 Transformer 的全局结构理解与远程语义信息依赖能力, 并通过特征融合操作, 实现高精度的雾去除. 具体地, 本文首先利用卷积操作提取浅层特征, 将学习到的特征映射作为Transformer的输入序列, 同时减小输入尺寸以降低训练难度, 并使用稀疏自注意模块 (Sparse self-attention modules, SSM) 缓解计算复杂度高的问题. 自注意力机制可以远程捕捉不同输入序列之间的信息依赖, 从而利用清晰无雾的特征序列引导有雾特征序列. 此外, 与标准Transformer层相比, 本文方法将MLP替换为卷积块, 即在Transformer层中融合卷积块用于弥补自注意中局部信息提取能力的不足. 对于卷积神经网络分支, 使用在 ImageNet上预训练的ResNet作为先验信息, 然后在非均匀的有雾数据集上对其进行微调, 从而适应该去雾任务. 实现结果表明, 本文方法在主客观评价上均实现了优异的性能.
图 2 基于全局局部协同的非均匀图像去雾网络Dehazeformer结构示意图
图 3 标准Transformer层和本文提出的混合Transformer层结构对比
本文提出一个由 Transformer和卷积神经网络组成的双分支全局局部协同非均匀图像去雾网络. 对于 Transformer 分支, 充分发挥 Transformer 的远程语义信息依赖能力和全局信息表示能力. 与标准 Transformer 层相比, 主要做了以下改进: 1) 使用卷积层提取较小尺度的特征作为输入, 充分利用卷积在提取特征上的优势, 缓解网络训练难度; 2) 使用混合 Transformer 层提高局部特征表示能力; 3) 使用稀疏自注意力模块缓解网络训练难度. 对于卷积神经网络分支, 充分发挥卷积的纹理细节恢复能力和局部信息表示能力. 本文提出的方法通过融合这两个分支, 充分发挥各自的优势. 实验结果表明, 所提方法在非均匀有雾场景下的去雾效果优于当前主流去雾方法和 NTIRE 2021的优胜方案. 针对非均匀图像去雾任务, 如何设计高效的自注意力来建模远距离依赖关系是极为重要的, 在今后的工作中, 我们也将进一步对其进行研究.
作者简介
罗小同
厦门大学信息学院博士研究生. 主要研究方向为计算机视觉与图像处理. E-mail: xiaotluo@stu.xmu.edu.cn
杨汶锦
厦门大学信息学院硕士研究生. 主要研究方向为计算机视觉与图像处理. E-mail: wjyang6@stu.xmu.edu.cn
曲延云
厦门大学信息学院教授. 主要研究方向为模式识别, 计算机视觉和机器学习. 本文通信作者. E-mail: yyqu@xmu.edu.cn
谢源
华东师范大学计算机科学与技术学院教授. 主要研究方向为模式识别, 计算机视觉和机器学习. E-mail: yxie@cs.ecnu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 16:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社