IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种改进的视频分割网络及其全局信息优化方法

已有 2059 次阅读 2022-3-3 09:51 |系统分类:博客资讯

用本文


张琳, 陆耀, 卢丽华, 周天飞, 史青宣. 一种改进的视频分割网络及其全局信息优化方法. 自动化学报, 2022, 48(3): 787−796 doi: 10.16383/j.aas.c190292

Zhang Lin, Lu Yao, Lu Li-Hua, Zhou Tian-Fe, Shi Qing-Xuan. An improved video segmentation network and its global information optimization method. Acta Automatica Sinica, 2022, 48(3): 787−796 doi: 10.16383/j.aas.c190292  

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190292?viewType=HTML


文章简介


关键词


视频物体分割, 卷积神经网络, 注意力机制, 全局信息优化


摘   要


提出了一种基于注意力机制的视频分割网络及其全局信息优化训练方法. 该方法包含一个改进的视频分割网络, 在对视频中的物体进行分割后, 利用初步分割的结果作为先验信息对网络优化, 再次分割得到最终结果. 该分割网络是一种双流卷积网络, 以视频图像和光流图像作为输入, 分别提取图像的表观信息和运动信息, 最终融合得到分割掩膜(Segmentation mask). 网络中嵌入了一个新的卷积注意力模块, 应用于卷积网络的高层次特征与相邻低层次特征之间, 使得高层语义特征可以定位低层特征中的重要区域, 提高网络的收敛速度和分割准确度. 在初步分割之后, 本方法提出利用初步结果作为监督信息对表观网络的权值进行微调, 使其辨识前景物体的特征, 进一步提高双流网络的分割效果. 在公开数据集DAVIS上的实验结果表明, 该方法可准确的分割出视频中时空显著的物体, 效果优于同类双流分割方法. 对注意力模块的对比分析实验表明, 该注意力模块可以极大的提高分割网络的效果, 较本方法的基准方法(Baseline)有很大的提高.


引   言


视频物体分割是计算机视觉领域中的重要研究方向, 与其他任务诸如行为分析、视频内插等有紧密联系. 当输入一个视频时, 视频分割算法针对视频中的每一帧图像计算出一幅分割掩膜, 该掩膜可提取图像中具有显著运动特征的前景. 由于前景物体的外表变形、遮挡和背景杂乱等困难, 视频物体分割是一个具有挑战性的问题. 而分割过程中无需先验信息及人工干预的无监督视频物体分割更为困难.


为解决无监督视频分割问题, 本文提出了一种改进的双流视频物体分割网络, 并利用该网络产生初步的分割结果. 作为视频分析中常用的网络结构, 双流网络可以并行分析视频中的时域−空域信息. 本文提出具有相同分支结构的双流分割网络, 同时对表观及运动做出分割, 并通过融合得到分割结果.


为使高层的特征指导低层特征提取更具判别力的特征, 本方法提出在网络中加入注意力模块. 该注意力模块用于主干(Backbone)网络的相邻特征层之间, 可将高层特征转化为与低层特征具有相同维度的注意力张量(Tensor), 强化高层特征所指定的更具语义信息的特征维度, 同时弱化与目标不相关的特征, 使低层特征具有更强的判别力, 实现高层语义特征对低层特征的监督. 实验表明, 加入注意力模块后网络的收敛速度更快, 且网络的分割效果得到提高.


经过分割后, 视频中有些图像的分割结果较准确, 有些图像则较差. 为了对初始分割做优化, 文献[13]将交互图像分割中的优化方法用于视频物体分割任务中. 基于初始分割结果, 此类方法针对每个视频前景物体的表观特征建立基于图模型(Graph)的能量函数并优化. 然而图模型方法无法准确建模表观变化大的运动物体.


本文提出利用初始结果作为先验对表观分支网络进行权值微调的方法. 利用阈值对初始结果进行挑选, 选择其中的可靠像素作为信息监督网络训练过程, 可以使得表观网络识得视频前景物体, 同时避免被不可靠像素所误导.


本文的主要贡献可归纳如下: 1)提出了一种视频物体分割方法, 首先利用双流卷积网络对视频分割, 得到初步的分割结果; 进而利用初步结果对分割网络的表观分支做权值微调, 使其适应该视频中的前景物体; 再次使用新权值下的分割网络对视频做分割, 得到最终结果. 通用数据集DAVIS上的实验显示该方法具有很好的分割能力, 能够准确的对视频中的运动物体进行分割. 2)提出了一个简单却有效的卷积注意力模块, 该模块可以用于分割网络中并提高卷积神经网络(Convolutional neural network, CNN)的表现能力. 3)提出了利用初步分割结果作为先验信息对网络进行微调的方法, 该方法可以使分割网络学习到视频中前景物体的表观特征, 提高分割效果.


1.  相关工作


1.1  视频分割


为解决视频物体分割问题, 很多有效算法被提出. 根据分割算法中提取特征所使用的方法, 可将其分类为: 1)基于非深度特征(Non-deep learning)的分割算法; 2)基于深度(Deep learning)特征的分割算法. 此外, 根据人与算法的交互程度, 两类算法均具有3种子类别: 1)无监督(Unsupervised)分割算法: 没有任何先验信息, 全自动的分割算法. 2)半监督(Semi-supervised)分割算法: 需要由人指定分割区域, 通常以视频中第1帧图像的真值给出. 3)全监督(Supervised)分割算法: 需要人与算法的多次交互, 以修正长时间分割中的误差.


非深度学习分割方法使用人工定义的描述子, 通过对整个视频上的运动特征、表观特征或二者的结合综合分析产生分割预测. 作为无监督分割方法, FST (Fast object segmentation in unconstrained video)通过分析运动特征得到具有显著相对运动的前景区域. 更进一步, 文献[20]提出综合分析运动边缘、表观边缘与超像素, 得到时空边缘概率图像, 利用测地距离对其优化得到更好的分割预测. 文献[17]是基于提议(Proposal)的分割方法. 该方法首先调用文献[22]的方法产生许多粗糙候选物体提议, 并使用支持向量机(Support vector machine, SVM)筛选出更为可靠的提议集合, 且进一步使用条件随机场 (Conditional random field, CRF) 进行了优化. VOSA (Video object segmentation aggregation)是一种集成方法, 该方法首先利用已有的方法对每一帧图像得到一组分割结果, 由于不同的方法具有不同的优势和劣势, 每一组分割结果中都包含较好的和较差的结果. 然后利用所定义的能量函数来优化不同分割结果在最终结果中的权重, 最终得到最优结果. 半监督分割方法利用跟踪或传播方式将已知的真值传递到整个视频中. 如文献[15]将跟踪与分割置于同一框架下, 将分割任务定义为对于物体部件的跟踪. OFL (Video segmentations via object flow) 则是基于图的分割方法, 在每幅图像内建立图,同时在图像间建立更高层次的图, 并在图上建立能量函数, 通过优化能量函数得到视频分割结果.


得益于近年发展快速的卷积神经网络技术, 很多基于卷积神经网络的分割方法相继提出, 并且超越了大部分传统方法的效果. 无监督分割网络需考虑物体的表观特征和运动特征, 因此文献[24-25] 提出利用双流网络来进行视频分割. 两支网络的输入分别为视频图像和由光流编码出的RGB 图像, 以此来进行表观特征的提取和运动特征的提取. 光流分支的加入可以对运动进行分析, 优化最终的结果. 文献[26]则是在相邻图像的表观网络顶部加入卷积长短期记忆(Long short-term menory, LSTM)模块, 以此编码时域信息, 从提取到的表观特征中寻求运动显著的区域选择为前景. 半监督视频分割方法则是利用先验信息(通常是第1帧图像的真值)使其在整列视频上扩展, 得到所有图像的分割预测. 算法(Learning video object segmentation from static images)是在输入光流图像和表观分支之外, 额外输入了当前图像的前一帧 (T−1帧)的分割结果. 利用上一帧的结果对下一帧进行约束, 并提高下一帧的分割准确度. 算法OSVOS (One-shot video object segmentation and optical flow)在测试集中利用第1帧的真值微调(Finetune)母网络的权重, 使得网络对于该视频中的运动物体敏感, 从而得到准确的视频分割结果. 此外, 文献[28]提出基于孪生网络 (Siamese network) 的快速分割方法, 该网络将视频的第1帧图像与其真值一起作为参考图像成为孪生网络中一支的输入, 同时将当前图像与前一帧图像的掩膜作为另一支的输入, 实现参考图像对目标的分割引导.


1.2  注意力机制


注意力在人类的感知系统中具有很重要的地位. 人类使用视觉感知外界时不会将所有的注意力同时平均分配在视野中的所有位置, 而是将注意力集中于显著的区域, 同时弱化非显著区域的细节, 以更好地构建图像来理解图像的含义.


近年来有很多与注意力相关的研究, 试图将注意力过程应用于卷积神经网络中来提高网络表现力. 文献[36]提出了采用残差连接的注意力模块, 同时提出增加更多的注意力模块可以显著提升网络的性能的同时降低计算量. 文献[36]同时探讨了空间注意力(Spatial attention)和通道注意力(Channel attention)及其联合方式对于分类效果的影响, 并用实验证明混合联合方式效果最好. 文献[37-38]利用通道注意力模块来选择更具有分辨能力的特征, 使得网络中更有判别力的特征得到加强, 并提高图像分割效果.


10.16383-j.aas.c190292-Figure1.jpg

图 1  基于注意力的视频物体分割方法框架图


10.16383-j.aas.c190292-Figure3.jpg

图 3  表观的特征提取网络


作者简介


张   琳

北京理工大学计算机学院博士研究生. 主要研究方向为视频物体显著性分析与视频分割.

E-mail: zhanglin@bit.edu.cn


陆   耀

北京理工大学计算机学院教授. 主要研究方向为视觉神经计算, 图像图形处理与视频分析, 模式识别和机器学习. 本文通信作者 

E-mail: vis_yl@bit.edu.cn


卢丽华

北京理工大学计算机学院博士研究生. 主要研究方向为单人及群体行为识别和视频分割.

E-mail: lulihua@bit.edu.cn


周天飞

瑞士苏黎世联邦理工学院, 博士. 主要研究方向为运动物体跟踪, 视频分割及行为识别.

E-mail: ztfei.debug@gmail.com


史青宣

河北大学网络空间安全与计算机学院副教授. 主要研究方向为计算机视觉, 模式识别, 机器学习.

E-mail: shiqingxuan@bit.edu.cn


相关文章


[1]  陈清江, 张雪. 基于并联卷积神经网络的图像去雾. 自动化学报, 2021, 47(7): 1739-1748. doi: 10.16383/j.aas.c190156

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190156?viewType=HTML


[2]  司念文, 张文林, 屈丹, 罗向阳, 常禾雨, 牛铜. 卷积神经网络表征可视化研究综述. 自动化学报. doi: 10.16383/j.aas.c200554

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200554?viewType=HTML


[3]  彭雨诺, 刘敏, 万智, 蒋文博, 何文轩, 王耀南. 基于改进YOLO的双网络桥梁表观病害快速检测算法. 自动化学报. doi: 10.16383/j.aas.c210807

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210807?viewType=HTML


[4]  王县县, 禹龙, 田生伟, 王瑞锦. 独立RNN和胶囊网络的维吾尔语事件缺失元素填充. 自动化学报, 2021, 47(4): 903-912. doi: 10.16383/j.aas.c180655

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180655?viewType=HTML


[5]  郑建兴, 李沁文, 王素格, 李德玉. 融合属性偏好和多阶交互信息的可解释评分预测研究. 自动化学报. doi: 10.16383/j.aas.c210457

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210457?viewType=HTML


[6]  俞文武, 杨晓亚, 李海昌, 王瑞, 胡晓惠. 面向多智能体协作的注意力意图与交流学习方法. 自动化学报. doi: 10.16383/j.aas.c210430

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210430?viewType=HTML


[7]  蒋芸, 谭宁. 基于条件深度卷积生成对抗网络的视网膜血管分割. 自动化学报, 2021, 47(1): 136-147. doi: 10.16383/j.aas.c180285

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180285?viewType=HTML


[8]  杨启萌, 禹龙, 田生伟, 艾山·吾买尔. 基于多注意力机制的维吾尔语人称代词指代消解. 自动化学报, 2021, 47(6): 1412-1421. doi: 10.16383/j.aas.c180678

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180678?viewType=HTML


[9]  潘文雯, 赵洲, 俞俊, 吴飞. 基于文本引导的注意力图像转发预测排序网络. 自动化学报, 2021, 47(11): 2547-2556. doi: 10.16383/j.aas.c200629

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200629?viewType=HTML


[10]  宋燕, 王勇. 多阶段注意力胶囊网络的图像分类. 自动化学报. doi: 10.16383/j.aas.c210012

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210012?viewType=HTML


[11]  汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络. 自动化学报, 2021, 47(10): 2438-2448. doi: 10.16383/j.aas.c190820

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190820?viewType=HTML


[12]  周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法. 自动化学报. doi: 10.16383/j.aas.c200493

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493?viewType=HTML


[13]  王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400. doi: 10.16383/j.aas.2018.c170295

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170295?viewType=HTML


[14]  林景栋, 吴欣怡, 柴毅, 尹宏鹏. 卷积神经网络结构优化综述. 自动化学报, 2020, 46(1): 24-37. doi: 10.16383/j.aas.c180275

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180275?viewType=HTML


[15]  陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报. doi: 10.16383/j.aas.c200035

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200035?viewType=HTML


[16]  肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测. 自动化学报. doi: 10.16383/j.aas.c190805

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190805?viewType=HTML


[17]  金侠挺, 王耀南, 张辉, 刘理, 钟杭, 贺振东. 基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统. 自动化学报, 2019, 45(12): 2312-2327. doi: 10.16383/j.aas.c190143

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190143?viewType=HTML


[18]  张婷, 李玉鑑, 胡海鹤, 张亚红. 基于跨连卷积神经网络的性别分类模型. 自动化学报, 2016, 42(6): 858-865. doi: 10.16383/j.aas.2016.c150658

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150658?viewType=HTML


[19]  刘明, 李国军, 郝华青, 侯增广, 刘秀玲. 基于卷积神经网络的T波形态分类. 自动化学报, 2016, 42(9): 1339-1346. doi: 10.16383/j.aas.2016.c150817

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150817?viewType=HTML


[20]  常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络. 自动化学报, 2016, 42(9): 1300-1312. doi: 10.16383/j.aas.2016.c150800

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150800?viewType=HTML


[21]  鲁志红, 郭丹, 汪萌. 基于加权运动估计和矢量分割的运动补偿内插算法. 自动化学报, 2015, 41(5): 1034-1041. doi: 10.16383/j.aas.2015.c140686

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140686?viewType=HTML


[22]  胡芝兰, 江帆, 王贵锦, 林行刚, 严洪. 基于运动方向的异常行为检测. 自动化学报, 2008, 34(11): 1348-1357. doi: 10.3724/SP.J.1004.2008.01348

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.01348?viewType=HTML


[23]  褚一平, 张引, 叶修梓, 张三元. 基于隐条件随机场的自适应视频分割算法. 自动化学报, 2007, 33(12): 1252-1258. doi: 10.1360/aas-007-1252

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1252?viewType=HTML


[24]  刘龙, 韩崇昭, 刘丁, 梁盈富. 一种新的基于吉布斯随机场的视频运动对象分割算法. 自动化学报, 2007, 33(6): 608-614. doi: 10.1360/aas-007-0608

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0608?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1327826.html

上一篇:明日直播预告‖陈关荣教授:探索最优同步网络的拓扑结构
下一篇:结合感受野增强和全卷积网络的场景文字检测方法
收藏 IP: 159.226.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-28 15:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部