IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

多级注意力传播驱动的生成式图像修复方法

已有 2145 次阅读 2022-5-11 16:27 |系统分类:博客资讯

引用本文


曹承瑞, 刘微容, 史长宏, 张浩琛. 多级注意力传播驱动的生成式图像修复方法. 自动化学报, 2022, 48(5): 1343−1352 doi: 10.16383/j.aas.c200485

Cao Cheng-Rui, Liu Wei-Rong, Shi Chang-Hong, Zhang Hao-Chen. Generative image inpainting with attention propagation. Acta Automatica Sinica, 2022, 48(5): 1343−1352 doi: 10.16383/j.aas.c200485

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200485?viewType=HTML


文章简介


关键词


注意力传播, 特征压缩, 复合粒度判别器, 图像修复


摘   要


现有图像修复方案普遍存在着结构错乱和细节纹理模糊的问题, 这主要是因为在图像破损区域的重建过程中, 修复网络难以充分利用非破损区域内的信息来准确地推断破损区域内容. 为此, 本文提出了一种由多级注意力传播驱动的图像修复网络. 该网络通过将全分辨率图像中提取的高级特征压缩为多尺度紧凑特征, 进而依据尺度大小顺序驱动紧凑特征进行多级注意力特征传播, 以期达到包括结构和细节在内的高级特征在网络中充分传播的目标. 为进一步实现细粒度图像修复重建, 本文还同时提出了一种复合粒度判别器, 以期实现对图像修复过程进行全局语义约束与非特定局部密集约束. 大量实验表明, 本文提出的方法可以产生更高质量的修复结果.


引   言


图像修复是指对图像中缺失或损坏区域进行修复重建的过程, 它是计算机视觉技术领域的重点研究内容之一, 其在图像编辑、图像渲染等诸多领域具有重要实用价值. 如何在图像破损区域合成与现有上下文区域结构语义一致、内容准确、细节丰富的局部图像信息, 是图像修复方法需要解决的难点问题.


根据所利用特征级别的不同, 现有图像修复方法可分为两大类: 1)利用低级非语义特征的方法; 2)利用高级语义特征的方法. 其中, 利用低级非语义特征的图像修复方法为传统的图像修复方法, 通常基于扩散或图像块匹配机制将非破损区域的低级特征“粘贴”到破损区域. 此类方法对特定的图像缺损类型有着优秀的修复效果. 例如基于扩散的方法将图像信息从破损区域边界往内部进行传播, 可以有效地修复“抓痕”这样的细小破损. 基于图像块匹配的方法在背景修复方面性能强大, 并广泛应用于商用软件中. 然而, 此类利用低级非语义特征的图像修复方案无法对破损区域的上下文进行深入理解, 即无法获取图像的高级语义特征, 使得此类方法对高度模式化的图像(比如人脸)无法实现很好的修复效果.


利用高级语义特征的方法, 从大规模数据中学习高级语义特征, 大大提升了修复性能. 其中, 基于生成式对抗网络GANs (Generative adversarial nets)的方法已成为图像修复领域的主流. 基于GANs的方法将图像修复问题转化为基于条件生成对抗网络的条件生成问题. 此类方法通常以破损图像与标定破损区域的掩码作为条件输入, 采用自动编码器网络作为生成器来重建缺损区域的内容, 并结合判别器网络以对抗方式训练, 最终得到完整的图像输出. 为有效地综合利用图像上下文区域的特征, GL (Globally and locally consistent image completion)引入级联扩张卷积, 并将其集成到自动编码器网络的“瓶颈区”. 虽然扩张卷积可以在一定程度上将远距离特征纳入其感受野中, 以达到综合利用远距离特征的目标; 但是扩张卷积有较大的空穴区域, 以规则对称的网格方式采样图像特征, 从而造成远距离重点区域特征被忽略. MC (Multi-column convolutional), CA (Contextual attention)以及CI (Contextual-based inpainting)等方案采用单级上下文注意力方案, 计算图像上下文的语义相似度, 显式地从破损图像的未破损区域中借取有意义的图像表达, 缓解了远距离特征无法有效利用的问题.


然而, 以上这些方法通常无法为场景复杂图像的缺损区域生成结构合理、细节丰富的内容. 如图1(b)所示, 修复结果图像中明显存在整体性或局部性结构错乱, 此外生成图像还存在语义特征重建不够细致的问题, 即对图像语义(比如人脸图像的眼睛、鼻子等部分)重建比较模糊.


10.16383-j.aas.c200485-Figure1.jpg

图 1  当前图像修复方法所存在的结构和细节问题展示


如图2所示为当前主流图像修复方案通常采用的自动编码器生成网络. 缺损图像经过编码器编码得到浅层特征, 将浅层特征送入“瓶颈区”进行特征提取, 然后再由解码器解码为完整图像. 我们通过研究发现此类自动编码器结构存在非常严重的特征传递受阻问题, 其“瓶颈区”高级特征的截面过大(一般为64 × 64像素大小). 大截面特征使得扩张卷积与单级注意力特征匹配等方案无法充分获取结构与细节特征, 同时阻碍了结构和细节特征在网络中传播, 从而导致了修复结果中出现结构错乱和语义对象模糊等现象.


10.16383-j.aas.c200485-Figure2.jpg

图 2  常规自动编码器


如图3所示, 针对特征传递受阻问题, 我们对自动编码器结构中的“瓶颈区”网络部分进行以下两步改进: 第一步, 多级特征压缩. 将编码器与解码器之间的“瓶颈网络”中大小为h×w×c像素的高级特征分别按照0、2、4、8压缩率进行缩放, 构建多级压缩特征, 即F_c0、F_c2、F_c4和F_c8. 越高压缩率的特征, 其尺度越小. 若按照特征尺度大小对多级压缩特征进行排列, 其结果为F_c0 > F_c2 > F_c4 > F_c8. 多级压缩特征在特征表达方面是互补的, 越小尺度的特征中有着越小的结构特征空间, 网络更容易从中搜索出有意义的结构表达, 但是越小尺度特征越缺乏细节信息; 与之相反, 越大尺度特征中虽然在结构表达能力上更弱, 却有着越丰富的细节特征, 网络更容易从中搜索出有意义的细节表达. 因此, 大小尺度特征之间的这种互补性为第二步, 即多级注意力传播, 提供了巨大潜力. 多级注意力传播可以充分利用不同压缩特征对不同特征(结构/细节)表达方面的优势. 具体来说, 我们分别对各级压缩特征F_c8、F_c4、F_c2和F_c0依次执行注意力匹配与替换, 得到注意力特征; 并依据从小尺度到大尺度的顺序对注意力特征进行分级传播. 如图3所示注意力特征A_8与压缩特征F_c4结合, 将小尺度注意力特征传播至更高尺度. 其后注意力特征A_4再以相同的过程传播至A_2和A_0. 由于前一级注意力特征匹配替换的结果总比后一级有更准确的结构表达; 后一级紧凑的压缩特征总比前一级有更多的细节特征. 因此, 多级注意力的传播方案可以促使网络在多个尺度下既保持图像结构准确, 又不断地丰富细节. 相比当前基于单级注意力的图像修复方案, 我们的多级方案可以得到更加丰富的深度特征.


10.16383-j.aas.c200485-Figure3.jpg

图 3  多级注意力特征传播自动编码器


同时, 与当前主流方法中由“粗”到“细”的多阶段方案不同, 我们期望在一个阶段内实现细粒度图像重建. 为此, 我们还提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 其中, 全局语义约束由全局判别器实现, 该判别器的输出为一个评价图像整体真实度得分的值; 非特定局部密集约束由局部密集判别器实现, “非特定局部”与“密集”体现在我们的局部密集判别器所执行的是对图像内多个相互重叠的局部区域进行密集地判别. 因此, 这种密集局部判别方式非常适合处理不规则破损情况下的修复任务.


在包括人脸、建筑立面和自然图像在内的多个数据集上进行的大量实验表明, 本文所提出的多级注意力传播驱动的生成式图像修复方法所生成的图像修复结果比现有方法拥有更高的图像质量.


综上所述, 本文的贡献如下: 1)提出了一种端到端的图像修复模型, 该模型通对全分辨率的图像上下文进行编码, 将提取的高级特征压缩为多尺度紧凑特征, 并依据尺度大小顺序驱动紧凑特征进行多级注意力特征传播, 实现了包括结构和细节在内的高级特征在网络中的充分传播. 2)提出了一种复合粒度判别器, 对图像进行全局语义约束与非特定局部密集约束, 使得图像修复在单个前向过程中同时现高质量的细粒度重建.


作者简介


曹承瑞

兰州理工大学硕士研究生. 主要研究方向为深度学习和图像处理.

E-mail: xiaocao1239@outlook.com


刘微容

兰州理工大学教授. 主要研究方向为机器视觉与人工智能、复杂系统先进控制理论与应用等. 本文通信作者. 

E-mail: liu_weirong@163.com


史长宏

兰州理工大学博士研究生. 主要研究方向为深度学习和图像处理.

E-mail: changhong_shi@126.com


张浩琛

兰州理工大学电气工程与信息工程学院讲师. 主要研究方向为机器人传感与控制.

E-mail: zhanghc@lut.edu.cn


相关文章


[1]  尹明, 吴浩杨, 谢胜利, 杨其宇. 基于自注意力对抗的深度子空间聚类. 自动化学报, 2022, 48(1): 271-281. doi: 10.16383/j.aas.c200302

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200302?viewType=HTML


[2]  陈善雄, 朱世宇, 熊海灵, 赵富佳, 王定旺, 刘云. 一种双判别器GAN的古彝文字符修复方法. 自动化学报, 2022, 48(3): 853-864. doi: 10.16383/j.aas.c190752

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190752?viewType=HTML


[3]  陈芳, 张道强, 廖洪恩, 赵喆. 基于序列注意力和局部相位引导的骨超声图像分割网络. 自动化学报. doi: 10.16383/j.aas.c210298

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210298?viewType=HTML


[4]  汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2021, 47(10): 2438-2448. doi: 10.16383/j.aas.c190820

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190820?viewType=HTML


[5]  蒋珂, 蒋朝辉, 谢永芳, 潘冬, 桂卫华. 基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法. 自动化学报. doi: 10.16383/j.aas.c210524

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210524?viewType=HTML


[6]  杨启萌, 禹龙, 田生伟, 艾山·吾买尔. 基于多注意力机制的维吾尔语人称代词指代消解. 自动化学报, 2021, 47(6): 1412-1421. doi: 10.16383/j.aas.c180678

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180678?viewType=HTML


[7]  俞文武, 杨晓亚, 李海昌, 王瑞, 胡晓惠. 面向多智能体协作的注意力意图与交流学习方法. 自动化学报. doi: 10.16383/j.aas.c210430

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210430?viewType=HTML


[8]  潘文雯, 赵洲, 俞俊, 吴飞. 基于文本引导的注意力图像转发预测排序网络. 自动化学报, 2021, 47(11): 2547-2556. doi: 10.16383/j.aas.c200629

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200629?viewType=HTML


[9]  王亚朝, 赵伟, 徐海洋, 刘建业. 基于多阶段注意力机制的多种导航传感器故障识别研究. 自动化学报, 2021, 47(12): 2784-2790. doi: 10.16383/j.aas.c190435

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190435?viewType=HTML


[10]  宋燕, 王勇. 多阶段注意力胶囊网络的图像分类. 自动化学报. doi: 10.16383/j.aas.c210012

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210012?viewType=HTML


[11]  林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021, 47(9): 2226-2237. doi: 10.16383/j.aas.c190074

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML


[12]  肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测. 自动化学报. doi: 10.16383/j.aas.c190805

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190805?viewType=HTML


[13]  王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400. doi: 10.16383/j.aas.2018.c170295

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170295?viewType=HTML


[14]  陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报. doi: 10.16383/j.aas.c200035

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200035?viewType=HTML


[15]  周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法. 自动化学报. doi: 10.16383/j.aas.c200493

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493?viewType=HTML


[16]  张亚茹, 孔雅婷, 刘彬. 多维注意力特征聚合立体匹配算法. 自动化学报. doi: 10.16383/j.aas.c200778

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200778?viewType=HTML


[17]  金侠挺, 王耀南, 张辉, 刘理, 钟杭, 贺振东. 基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统. 自动化学报, 2019, 45(12): 2312-2327. doi: 10.16383/j.aas.c190143

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190143?viewType=HTML


[18]  王金甲, 纪绍男, 崔琳, 夏静, 杨倩. 基于注意力胶囊网络的家庭活动识别. 自动化学报, 2019, 45(11): 2199-2204. doi: 10.16383/j.aas.c180721

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180721?viewType=HTML


[19]  冯欣, 杨丹, 张凌. 基于视觉注意力变化的网络丢包视频质量评估. 自动化学报, 2011, 37(11): 1322-1331. doi: 10.3724/SP.J.1004.2011.01322

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01322?viewType=HTML


[20]  吴琼, 孙韶杰, 朱为, 李国辉, 涂丹, 何朝盛. 数字图像盲取证对样本合成修复应用的篡改区域检测算法. 自动化学报, 2009, 35(3): 239-243. doi: 10.3724/SP.J.1004.2009.00239

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00239?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1338059.html

上一篇:一种噪声容错弱监督矩阵补全的生存分析方法
下一篇:基于凸近似的避障原理及无人驾驶车辆路径规划模型预测算法
收藏 IP: 159.226.180.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 21:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部