|
引用本文
黄庭鸿, 聂卓赟, 王庆国, 李帅, 晏来成, 郭东生. 基于区块自适应特征融合的图像实时语义分割.自动化学报, 2021, 47(5): 1137-1148 doi: 10.16383/j.aas.c180645
Huang Ting-Hong, Nie Zhuo-Yun, Wang Qing-Guo, Li Shuai, Yan Lai-Cheng, Guo Dong-Sheng. Real-time image semantic segmentation based on block adaptive feature fusion. Acta Automatica Sinica, 2021, 47(5): 1137-1148 doi: 10.16383/j.aas.c180645
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180645
关键词
深度学习,实时语义分割网络,区块自适应特征融合,跳跃连接结构
摘要
近年来结合深度学习的图像语义分割方法日益发展, 并在机器人、自动驾驶等领域中得到应用. 本文提出一种基于区块自适应特征融合(Block adaptive feature fusion, BAFF) 的实时语义分割算法, 该算法在轻量卷积网络架构上, 对前后文特征进行分区块自适应加权融合, 有效提高了实时语义分割精度. 首先, 分析卷积网络层间分割特征的感受野对分割结果的影响, 并在跳跃连接结构(SkipNet) 上提出一种特征分区块加权融合机制; 然后, 采用三维卷积进行层间特征整合, 建立基于深度可分离的特征权重计算网络. 最终, 在自适应加权作用下实现区块特征融合. 实验结果表明, 本文算法能够在图像分割的快速性和准确性之间做到很好的平衡, 在复杂场景分割上具有较好的鲁棒性.
文章导读
图像语义分割(Semantic segmentation) 是一种重要的智能感知方法, 在无人驾驶、医疗图像识别等方面有重要的应用价值. 图像语义分割是将图像中不同物体的像素区域分开, 并对每一块区域的类别进行标注.
针对这类问题, 早期以常规图像处理方法为主[1-2], 即通过阈值优化、分水岭算法等常规方法进行图像区域分割, 再结合几何形状、纹理等特征对区域进行分类标注. 随着统计学和智能化方法的应用, 概率图模型[3]、机器学习[4]等方法逐渐用于图像语义识别. 这类方法适用于特定场景的识别分类, 例如: 车牌识别、细胞分割等, 但应用场景较为简单, 难以适用于复杂场景. 近些年, 深度卷积神经网络(Convolutional neural networks, CNN)[5]逐渐在图像语义分割中得到应用, 大幅度提升语义分割算法的准确性和普适性. 因此, 基于深度学习的语义分割方法受到国内外学者的广泛关注. 最初, 等[6]针对CNN中输出维度下降的问题, 采用转置卷积[7]、双线性插值(Bilinear interpolation)[8]方法扩大CNN网络的输出维度, 实现了图像的像素级分类. 进一步, 文献[9-11]在此基础上引入轻量卷积神经网络, 提出了一种快速语义分割模型, 大幅度降低全卷积网络的运算量, 实现了在嵌入式设备上进行实时语义分割.
然而图像经过CNN模型处理后, 其维度与分辨率下降, 导致图像局部细节无法准确分割. 针对该问题, 研究者提出前后子特征融合(Context embedding) 方法[12-14], 其中最具代表性的是跳跃连接结构SkipNet模型[6]. 该方法将CNN网络的深层与浅层特征进行融合, 使得输出中融入浅层的细节特征, 改善输出精度. 但是文献[15]指出, 卷积层的局部感受野(Receptive field)[16]与分割物体的面积相匹配才能取得良好的预测准确度, 而卷积层的感受野随着网络深度的改变而不同. 因此, CNN中的卷积层对物体具有不同的预测准确度, 然而SkipNet进行特征融合时, 对特征图直接求和得到输出, 这样对输入特征的无差别叠加, 忽视不同特征层的分割特点, 导致模型精度降低.
在街景识别等语义分割任务中, 由于透视等原因导致不同区域中物体面积的差异, 为避免感受野与局部的场景物体失配问题, 针对SkipNet模型, 本文提出一种区块自适应特征融合(Block adaptive feature fusion, BAFF) 方法. BAFF具有如下特点: 1) 对输入的特征图进行分块, 每个区块赋予不同的权重并进行加权融合, 这样处理可以防止图像区域差异导致的局部感受野与物体失配问题; 2) 构建权值计算网络, 通过训练该网络, 计算出每个区块的权重, 从而对不同卷积层进行自适应权重分配; 3) 采用通道分离形式进行卷积, 使得网络在准确度提高的同时降低了网络的参数量与运算量, 从而提高网络的运行速度. BAFF结构如图 1所示, 图 1 (a)表示BAFF方法中的区块加权操作, 图 1 (b)表示本文提出的BAFF特征融合方法, 图 1 (c)表示常规SkipNet的特征融合方法.
图 1 区块特征融合与SkipNet叠加融合对比图
图 2 编码—解码结构
图 3 不同卷积层的语义分割测试
本文提出了一种基于BAFF的图像语义分割网络, 具有识别精度高、模型运算量小的特点, 可以应用于实时性要求高的图像语义分割系统. 与当前主要的实时语义分割网络比较, 本文方法具有以下特点: 首先, 引入一种分区块的自适应特征融合机制, 显著提高了图像语义分割的精度, 提升复杂环境下的鲁棒性. 其次, 引入权重计算网络, 对区块权重进行自适应计算, 且网络的计算量非常小, 能够保证模型计算的快速性和实时性. 考虑到常规的编码—解码网络结构属于一类黑箱模型, 模型内部计算参数缺乏明确的物理含义. 本文提出的BAFF所实现的特征加权属于一类可解释的网络模型, 更适合实际应用和操作. 采用神经网络进行动态加权融合可以用于解决信息融合问题, 在本文基础上, 下一步工作拟将神经网络动态加权融合的思想与传统控制问题、互补滤波问题进行结合开展研究, 以提高其他类似系统的精确和实用性.
作者简介
黄庭鸿
华侨大学信息科学与工程学院硕士研究生. 2017年获得华侨大学学士学位. 主要研究方向为强化学习和深度学习.E-mail: 063mi@163.com
王庆国
南非约翰内斯堡大学智能系统研究所教授, 新加坡国立大学教授. 1987年获得浙江大学博士学位. 主要研究方向为复杂系统的建模, 估计预测、控制和优化.E-mail: wangqg02286@gmail.com
李帅
香港理工大学研究助理副教授. 2014年获得史蒂文斯理工学院博士学位. 主要研究方向为动态神经网络, 无线传感器网络, 机器人网络, 机器学习和在图上定义的其他动态问题. E-mail: shuaili@polyu.edu.hk
晏来成
华侨大学信息科学与工程学院讲师. 2007年获得重庆大学硕士学位. 主要研究方向为机器人控制, 机器视觉和机器学习. E-mail: ylaicheng@126.com
郭东生
华侨大学信息科学与工程学院副教授. 2015年获得中山大学博士学位. 主要研究方向为机器人控制, 神经网络和数值方法.E-mail: gdongsh@hqu.edu.cn
聂卓赟
华侨大学信息科学与工程学院副教授. 2012年获中南大学博士学位. 主要研究方向为鲁棒控制, 系统建模与辨识. 本文通信作者.E-mail: yezhuyun2004@sina.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社