|
引用文本
林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021, 47(9): 2226−2237 doi: 10.16383/j.aas.c190074
Lin Hong, Ren Shuo, Yang Yi, Zhang Yang-Yi. Unsupervised image-to-image translation with self-attention and relativistic discriminator adversarial networks. Acta Automatica Sinica, 2021, 47(9): 2226−2237 doi: 10.16383/j.aas.c190074
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074
关键词
图像翻译,对偶学习,生成对抗网络,自注意力机制,相对鉴别,无监督学习
摘要
无监督图像翻译使用非配对训练数据能够完成图像中对象变换、季节转移、卫星与路网图相互转换等多种图像翻译任务.针对基于生成对抗网络(Generative adversarial network, GAN)的无监督图像翻译中训练过程不稳定、无关域改变较大而导致翻译图像细节模糊、真实性低的问题, 本文基于对偶学习提出一种融合自注意力机制和相对鉴别的无监督图像翻译方法.首先, 生成器引入自注意力机制加强图像生成过程中像素间远近距离的关联关系, 在低、高卷积层间增加跳跃连接, 降低无关图像域特征信息损失.其次, 判别器使用谱规范化防止因鉴别能力突变造成的梯度消失, 增强训练过程中整体模型的稳定性.最后, 在损失函数中基于循环重构增加自我重构一致性约束条件, 专注目标域的转变, 设计相对鉴别对抗损失指导生成器和判别器之间的零和博弈, 完成无监督的图像翻译.在Horse & Zebra、Summer & Winter以及AerialPhoto & Map数据集上的实验结果表明:相较于现有GAN的图像翻译方法, 本文能够建立更真实的图像域映射关系, 提高了生成图像的翻译质量.
文章导读
图像翻译(Image-to-image translation) [1]是一类将源图像域的输入图像转化为目标图像域输出图像的计算机视觉处理任务, 其应用包括图像风格转换[2]、图片域适应和数据预处理等多个领域.生成对抗网络[3]作为当前图像翻译任务的主流模型, 通过生成器和判别器之间的零和博弈, 提高判别器鉴别真伪的能力, 指导生成器学习真实的数据分布从而生成逼真图像.
根据训练数据集中输入图像和输出图像的对应关系, 图像翻译分为有监督和无监督两种[4]. Isola等[1]在2017年基于条件生成对抗网络(Conditional generative adversarial network, CGAN) [5]提出的pix2pix是典型的有监督图像翻译方法, 其模型将U-net [6]作为生成器、PatchGAN作为判别器, 在保持图像结构一致性的情况下完成有标注的成对数据间转换工作.
有监督的图像翻译方法需要一一配对的训练图像, 然而在艺术风格转换、目标转换等任务中难以得到大规模匹配成对的有标注图像数据集.
无监督的图像翻译任务避免了需要获取配对训练数据集的问题, 其目标是学习两个图像域(Image domain)之间的映射, 训练集中输入图像和目标图像不必拥有明确的对应关系. Zhu等[7]结合对偶学习提出CycleGAN无监督图像翻译方法, 使用相互对应的生成器和判别器完成图像域转换, 并使用循环重构一致性的约束条件保留图像内容结构信息, 从而只改变目标图像域. 为更好地建立图像域之间的映射关系, Liu等[8]提出UNIT方法共享中间层的网络权重, 在生成器中的编码器结构提取不同图像域共享的低维潜在向量后, 使用对应的解码器结构建立低维潜在向量与各个图像域的映射关系, 完成无监督图像翻译.
当前无监督图像翻译方法能够较好地建立不同图像域之间相互映射关系, 但是在翻译效果以及生成图像质量方面依然存在不足. 首先, 由于生成器网络卷积神经结构受卷积核大小的限制, 在生成图像过程中只能关注局部依赖关系而忽略了全局相关性, 导致翻译图像指定图像域变化不完全, 图像协调性与真实性降低; 其次, 由于训练数据中没有配对的目标图像, 翻译过程中目标图像域信息定位不准确, 存在无关图像域信息改变, 翻译效果不理想的问题; 另外, 当前GAN博弈对抗过程中, 生成器通过判别器与真实数据间接地建立关系, 判别器未利用输入数据一半为真一半为假的先验知识, 导致训练过程稳定性不足, 翻译图像质量不佳.
为了提升无监督图像翻译方法生成图像的视觉效果, 解决训练过程中模型不稳定、无关图像域发生较大改变的问题, 本文以GAN为基本模型, 基于对偶学习, 提出一种融合自注意力机制和相对鉴别的无监督图像翻译方法, 主要工作如下:
1) 在生成器网络设计中, 针对卷积结构只关注局部依赖的问题, 引入自注意力机制计算目标图像像素位置间的关联权重, 建立远近距离的依赖关系从而提高图像整体协调性; 同时在生成器的下采样区最后一层和上采样区第一层之间增加跳跃连接来降低原图像特征在中间卷积过程中的信息损失, 更好地还原图像细节.
2) 在判别器网络设计中, 采用PatchGAN网络结构对图像进行真假二分类鉴别, 并引入谱规范化(Spectral normalization) [9]使训练过程中的参数矩阵在结构不被破坏的前提下满足Lipschitz条件, 防止因判别器能力突变造成的梯度消失, 提高训练过程的稳定性.
3) 针对整体模型博弈对抗过程不合理, 导致训练不稳定的问题, 采用相对鉴别对抗损失, 将绝对的真假判断转化为差值关系的相对真假, 提高训练收敛速度、增加训练过程稳定性, 与最小二乘法相融合, 严格决策远离边界的假样本, 从而增强生成图像的真实性.
4) 由循环重构和自我重构组成重构损失, 基于对偶学习采用循环重构建立图像域相互映射关系, 在翻译过程中保留图像的固有特征, 并增加自我重构降低无关图像域信息的改变, 进一步引导图像翻译的方向, 提高图像翻译效果.
图 1 模型整体结构
图 2 生成器网络
图 3 判别器网络
本文基于对偶学习使用两组GAN完成无监督图像翻译.针对生成图像整体协调性差和图像细节不清晰, 造成真实性低的问题, 在生成器网络中引入自注意力机制, 建立远近距离像素间关联关系, 增加额外的跳跃连接降低无关图像域信息损失, 提高细节清晰度. 针对整体模型梯度消失问题, 在判别器网络中采用谱规范化逐步提升判别能力, 提高训练稳定性. 在循环重构的基础上增加自我重构损失, 共同建立图像域之间的映射关系; 采用相对生成对抗损失加快模型收敛速度, 提高图像翻译效果. 马、斑马局部图像翻译和夏、冬全局图像翻译实验结果表明, 本文方法相比CycleGAN和UNIT模型建立了更真实的图像域映射关系, 提升了翻译图像视觉效果和质量. 但本文仍存在较大提升空间, 对其局限性及未来工作归纳如下:
1) 本文方法在循环重构的基础上增加自我重构减少了与目标域无关的图像信息变化, 但是依然无法完全避免无关信息的改变. 如何在图像翻译过程中只改变目标图像域, 并与原图进行融合, 将有助于提升图像翻译效果.
2) 本文方法仅适用于单图像域的翻译任务, 在同时建立多个图像域之间映射关系时需要针对每对图像域进行训练, 不能完成端对端的图像翻译. 改进整体模型结构和损失函数以适应多图像域翻译将是下一步的研究工作.
作者简介
林泓
武汉理工大学计算机科学与技术学院副教授.主要研究方向为图像处理, 数据挖掘, 计算机语言与编译技术.E-mail:linhong@whut.edu.cn
任硕
武汉理工大学硕士研究生.主要研究方向为计算机视觉和模式识别. E-mail: rensho555@126.com
张杨忆
武汉理工大学硕士研究生.主要研究方向为计算机视觉和模式识别. E-mail: whutzyy95@163.com
杨益
武汉理工大学计算机学院讲师.主要研究方向为图像处理和模式识别.本文通信作者.E-mail: yang_yi@whut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 18:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社