IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

全景分割研究综述

已有 2498 次阅读 2022-9-12 18:53 |系统分类:博客资讯

引用本文

 

徐鹏斌, 瞿安国, 王坤峰, 李大字. 全景分割研究综述. 自动化学报, 2021, 47(3): 549−568 doi:  10.16383/j.aas.c200657

Xu Peng-Bin, Qu An-Guo, Wang Kun-Feng, Li Da-Zi. A survey of panoptic segmentation methods. Acta Automatica Sinica, 2021, 47(3): 549−568 doi:  10.16383/j.aas.c200657

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200657

 

关键词

 

全景分割,语义分割,实例分割,深度学习 

 

摘要

 

在计算机视觉领域, 全景分割是一个新颖且重要的研究主题, 它是机器感知、自动驾驶等新兴前沿技术的基石, 具有十分重要的研究意义. 本文综述了基于深度学习的全景分割研究的最新进展, 首先总结了全景分割任务的基本处理流程, 然后对已发表的全景分割工作基于其网络结构特点进行分类, 并进行了全面的介绍与分析, 最后对全景分割任务目前面临的问题以及未来的发展趋势做出了分析, 并针对所面临的问题提出了一些切实可行的解决思路.

 

文章导读

 

全景分割[1]是将图像划分为语义区域(Stuff)和对象实例(Things)的任务, 是近年来新兴起的一个研究方向, 也是计算机视觉中一个重要的研究问题. 随着图像处理技术的发展, 数字图像已经成为日常生活中不可缺少的媒介, 每时每刻都在产生图像数据. 对图像中的物体进行快速准确的分割变得愈发重要.

 

全景分割包含语义分割和实例分割两大任务. 语义分割是将类别标签按图像中物体类别分配给每个像素, 即将输入图像中的像素分为不同的语义类别. 传统的语义分割方法大多基于模型驱动, 模型驱动方法可分为生成式和判别式[2]. 生成式模型首先学习图像的特征和标签概率, 然后计算输入图像特征时各个标签的后验概率, 依据此概率对图像进行标注. 马尔科夫随机场(Markov random field, MRF)是一种应用广泛的生成式模型[3], 它利用先验上下文信息和训练得到的结果, 提高分割性能. 但是当图像分辨率较大时, 分割速度和精度会大幅下降. 判别式模型假设图像特征与标签之间存在某种映射关系, 然后从历史数据中学习该映射关系的相关参数[2]. 典型的判别式模型包括支持向量机(Support vector machine, SVM)、条件随机场(Conditional random field, CRF)等. SVM因其可处理非线性且具有良好的泛化能力, 在语义分割研究中得到了广泛应用[3]. CRF不仅可以利用图像局部上下文信息, 还可学习从局部到全局的上下文信息, 已经成功应用于图像标记[4]. 然而, 判别式模型存在收敛速度慢、无法解决存在隐变量的情况等问题.

 

近年来, 随着硬件计算能力的提高, 语义分割得到快速发展. 随着全卷积网络(Fully convolutional network, FCN)的出现[5], 深度学习推动语义分割任务快速发展, 并且在自动驾驶、人脸识别等领域得到应用.

 

实例分割实质上是目标检测和语义分割的结合, 目的是将输入图像中的目标检测出来, 并且对目标的每个像素分配类别标签. 实例分割能够对前景语义类别相同的不同实例进行区分, 这是它与语义分割的最大区别. 相比语义分割, 实例分割发展较晚, 因此实例分割模型主要基于深度学习技术, 但它也是图像分割一个重要的组成部分. 随着深度学习的发展, 实例分割相继出现了SDS (Simultaneous detection and segmentation)[6]、DeepMask[7]、MultiPath network[8]等方法, 分割精度和效率逐渐得到提升.

 

全景分割是语义分割和实例分割的综合. 全景分割任务不仅要求区分输入图像中的背景语义类别和前景语义类别, 还要将同一类别前景语义中的不同实例分割出来, 因此全景分割任务比语义分割、实例分割任务的难度更高. 全景分割由Kirillov等[1]提出, 已经得到计算机视觉学界的高度重视, 涌现出JSIS-Net (Joint semantic and instance segmentation network)[9]、TASCNet (Things and stuff consistency network)[10]、AUNet (Attention-guided unified network)[11]等方法, 显著推动了全景分割的发展. 但是在真实环境下, 全景分割经常遇到以下挑战:

1) 分支融合冲突

全景分割任务是语义分割与实例分割两个任务的综合, 在网络结构方面, 现有大部分方法将输入图像的特征输送到语义分支与实例分支, 然后融合两个分支的输出, 得到全景输出. 但是在融合时会出现像素分配冲突, 影响全景预测质量.

2) 小物体检测分割

数据集中的图像会出现大小、距离不一的许多物体, 对于大物体, 诸多全景分割方法能够对其进行准确分割, 而当小物体出现时, 经常伴随被漏检或者分割不准确的问题, 这导致全景分割精度较低, 直接增加了全景分割的难度.

3) 分割对象交叠

在图像采集过程中, 会因为季节、天气、光照、距离等条件的变化, 出现不同的场景, 图像中物体会出现遮挡交叠等情况, 这使得分割方法无法准确判断像素的归属, 导致分割不精确.

 

为了克服上述挑战, 已经出现了一些全景分割方法, 它们在分支融合、小物体检测、遮挡处理方面提出了不同的应对策略, 在一定程度上解决了这些问题. 本文首先介绍全景分割的流程, 然后重点介绍深度学习在全景分割领域的研究进展.

 

本文内容安排如下: 第1节介绍全景分割的基本流程; 第2节对语义分割、实例分割等相关知识以及全景分割数据集进行介绍; 第3节介绍深度学习在全景分割领域的研究进展; 第4节讨论全景分割研究面临的挑战, 并对今后的发展趋势进行展望; 第5节对本文进行总结.

图 1  全景分割流程图

图 2  LeNet-5的网络结构

图 4  ResNet网络的残差模块

 

全景分割任务在计算机视觉领域具有重要的研究意义和应用价值, 其研究进展可以直接推动自动驾驶、机器人等领域的发展. 深度学习作为目前的主流技术, 在全景分割任务中得到广泛应用. 本文综述了深度学习在全景分割中的研究进展, 介绍了全景分割数据集和相关背景知识, 重点介绍了基于深度学习技术的全景分割模型, 总结了深度学习在全景分割任务中的最新进展, 分析了全景分割现有方法存在的问题, 并提出了一些解决思路.

 

在今后的工作中, 首先需要从深度学习理论和方法入手, 进一步完善深度学习理论, 提升全景分割的性能指标. 此外, 在扩展数据集、结合传统算法与深度学习算法方面, 也应该进行重点研究. 这些工作有助于使得全景分割技术研究和应用更加成熟.

 

作者简介

 

徐鹏斌

北京化工大学信息科学与技术学院硕士研究生. 2019年获得华北电力大学学士学位. 主要研究方向为深度学习, 计算机视觉, 图像全景分割. E-mail: 2019210488@mail.buct.edu.cn

 

安国

北京化工大学信息科学与技术学院硕士研究生. 2018年获得北京理工大学学士学位. 主要研究方向为深度学习, 计算机视觉, 图像全景分割. E-mail: 2018210472@mail.buct.edu.cn

 

王坤峰

北京化工大学信息科学与技术学院教授. 主要研究方向为计算机视觉, 机器学习, 智能无人系统. 本文通信作者. E-mail: wangkf@mail.buct.edu.cn

 

李大字

北京化工大学信息科学与技术学院教授. 主要研究方向为人工智能, 先进控制, 分数阶系统, 复杂系统建模与优化. E-mail: lidz@mail.buct.edu.cn



https://blog.sciencenet.cn/blog-3291369-1355004.html

上一篇:【当期目录】IEEE/CAA JAS 第9卷 第8期
下一篇:无纺布疵点实时检测技术与系统设计
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-1 19:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部