IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于上下文和浅层空间编解码网络的图像语义分割方法

已有 1174 次阅读 2022-7-13 14:56 |系统分类:博客资讯

引用本文

 

罗会兰, 黎宵. 基于上下文和浅层空间编解码网络的图像语义分割方法. 自动化学报, 2022, 48(7): 18341846 doi: 10.16383/j.aas.c190372

Luo Hui-Lan, Li Xiao. Image semantic segmentation method based on context and shallow space encoder-decoder network. Acta Automatica Sinica, 2022, 48(7): 18341846 doi: 10.16383/j.aas.c190372

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190372

 

关键词

 

语义分割,二分支策略,语义上下文信息,浅层空间细节信息,反U型结构 

 

摘要

 

当前图像语义分割研究基本围绕如何提取有效的语义上下文信息和还原空间细节信息两个因素来设计更有效算法. 现有的语义分割模型, 有的采用全卷积网络结构以获取有效的语义上下文信息, 而忽视了网络浅层的空间细节信息; 有的采用U型结构, 通过复杂的网络连接利用编码端的空间细节信息, 但没有获取高质量的语义上下文特征. 针对此问题, 本文提出了一种新的基于上下文和浅层空间编解码网络的语义分割解决方案. 在编码端, 采用二分支策略, 其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息, 而空间分支设计成反U型结构, 并结合链式反置残差模块, 在保留空间细节信息的同时提升语义信息. 在解码端, 本文设计了优化模块对融合后的上下文信息与空间信息进一步优化. 所提出的方法在3个基准数据集CamVidSUN RGB-DCityscapes上取得了有竞争力的结果.

 

文章导读

 

语义分割是计算机视觉基本任务之一, 其研究目的是为图像中的每一个像素点分配与之相对应的类别标记, 所以可以认为其属于像素级分类. 它主要用在多个具有挑战性的应用领域, 例如: 自动驾驶、医疗图像分割、图像编辑等. 因为语义分割涉及像素级分类和目标定位, 所以如何获取有效的语义上下文信息和如何利用原始图像中的空间细节信息是处理语义分割问题必须考虑的两个因素.

 

目前, 语义分割最流行的算法是采用类似全卷积网络(Fully convolutional network, FCN)[1]的形式, 1(a)所示, 采用这种形式的分割网络模型是将研究的重点放在提取图像的丰富语义上下文信息上. 在深度卷积网络中, 感受野大小决定着网络可以获得多大范围的语义上下文信息, 扩张卷积被用来增加网络感受野从而提升分割性能[2-4]. 为了捕捉到图像中不同尺度的目标, PSPNet (Pyramid scene parsing network)[5]通过空间金字塔方式的全局池化操作来获取多个不同大小的子区域的特征信息, DeepLabV3[6]则采用空间金字塔方式的扩张卷积. 全卷积网络结构虽然能有效获得语义上下文信息, 但它是通过池化操作或带有步长的卷积来获得, 这会导致空间细节信息的丢失, 从而影响语义分割的精度.

 1  本文提出的网络结构与其他网络结构

 

为了弥补空间细节信息的丢失, 许多研究工作采用编码器解码器结构[7-9], 1(b)所示. 编码端通常是分类网络, 它采用一系列下采样操作来编码语义上下文信息, 而解码端通过使用上采样处理来恢复空间细节信息. 为了更好地恢复编码过程丢失的空间细节信息, 一些工作[10-12]采用了U型网络结构, 1(c)所示, LRN (Label refinement network)[10]FC-DenseNet[11]在解码端通过横向连接的方式, 使用各编码块的特征信息, 联合高层语义信息恢复出图像的空间细节信息, SegNet[12]则是使用各编码块产生的最大池化索引来辅助解码端上采样特征信息. 这种结构的编码端采用传统的分类网络完成特征提取, 没有显式上下文信息提取模板, 学习到的特征可能缺少语义分割任务所须的属性. 同时, 根据可视化卷积神经网络结构[13], 网络高层特征含有极少空间细节信息, 所以在解码端过度使用编码端高层特征, 不仅不能有效地利用编码端的空间信息, 还会提升网络模型的复杂度以及计算冗余, 不利于分割算法的实时应用.

 

基于以上分析, 本文提出了一种基于上下文和浅层空间编解码网络的图像语义分割方法, 1(d)所示. 整个模型采用编解码框架, 本文的动机是在编码端即能获取高质量的语义上下文信息, 同时又能充分保留原始图像中的空间细节信息. BiSeNet[14]启发, 本文在编码端使用二分支策略, 上下文路径用于获取有效的上下文语义信息, 而空间路径则充分保留图像的空间细节信息, 将语义上下文信息的提取与空间细节信息的保留进行分离. 根据可视化深度卷积神经网络[13], 深度卷积网络的浅层携带大量的空间细节信息, 而高层特征基本不包含空间细节信息. 本文将空间路径设计为反U型结构, 这样能将编码网络的浅层和中层特征进行从上到下的融合, 以充分利用编码网络浅中层特征所携带的空间细节信息. MobileNetV2[15]启发, 本文设计了链式反置残差模块, 对编码网络浅中层特征所携带的空间细节信息进行处理, 达到保留空间信息的同时提升特征的语义表达能力. 在编码网络的上下文路径, 本文设计了语义上下文模块, 它由混合扩张卷积模块和残差金字塔特征提取模块组成. 使用混合扩张卷积模块是为了进一步提升网络感受野, 而残差金字塔特征提取模块可以获取多尺度特征信息. 在解码端, 首先对编码端的空间信息和语义上下文信息进行融合, R2U-Net[16]启发, 本文设计了带有残差的循环卷积网络优化模块对融合的特征进一步优化, 最后采用可学习的反卷积将优化的分割图还原到原始图像大小.

 

本文主要贡献为:

1)提出了基于上下文和浅层空间信息结合的编解码网络用于图像语义分割, 即能获取高质量的上下文语义信息又能保留有效的空间细节信息.

2)为了获得高效的语义上下文信息, 本文组合混合扩张卷积模块和残差金字塔特征提取模块, 以提升网络感受野以及获取周围特征信息和多尺度特征信息; 对于浅层空间信息的使用, 本文设计了反U型结构的空间路径以利用编码端浅中层特征所携带的大量空间信息. 针对编码端不同层的特征差异, 在空间路径中设计了链式反置残差模块以保留空间细节信息并提升特征的语义表达能力, 这样不仅可以弥补高层语义信息中丢失的位置信息还使得模型轻量化.

3)本文设计了残差循环卷积模块, 对语义特征和空间信息融合后的分割特征进一步优化, 提升分割性能. 本文方法在3个基准数据集CamVidSUN RGB-DCityscapes上取得了有竞争力的结果.

 3  ResNet-34骨干网络结构

 4  3种不同扩张率的扩张卷积, 从左到右分别为r = 1, 3, 4

 

本文深入研究了采用编解码结构和二分支结构的语义分割方法, 提出了一种新的端到端的深度学习框架用于语义分割. 在编码端采用二分支结构以获取高质量的上下文语义特征, 同时有效利用编码端浅中层的空间细节信息. 本文方法在3个语义分割基准数据集上取得了有竞争力的结果, 一系列消融实验也验证了本文提出的各功能模块的有效性. 通过可视化预测结果, 发现本文方法在小物体上的分割还不够精准, 进一步的工作拟研究产生这种现象的原因, 并进一步改进分割模型.

 

作者简介

 

罗会兰

江西理工大学信息工程学院教授. 2008年获浙江大学计算机科学与技术博士学位. 主要研究方向为计算机视觉与机器学习. 本文通信作者. E-mail: luohuilan@sina.com

 

黎宵

江西理工大学信息工程学院硕士研究生. 主要研究方向为计算机视觉与语义分割. E-mail: williamlixiao@sina.com



https://blog.sciencenet.cn/blog-3291369-1347104.html

上一篇:基于i向量和变分自编码相对生成对抗网络的语音转换
下一篇:复杂物联网联盟链系统通信机制研究
收藏 IP: 222.131.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 23:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部