|
引用本文
赵子成, 张开华, 樊佳庆, 刘青山. 基于运动引导的高效无监督视频目标分割网络. 自动化学报, 2023, 49(4): 872−880 doi: 10.16383/j.aas.c210626
Zhao Zi-Cheng, Zhang Kai-Hua, Fan Jia-Qing, Liu Qing-Shan. Learning motion guidance for efficient unsupervised video object segmentation. Acta Automatica Sinica, 2023, 49(4): 872−880 doi: 10.16383/j.aas.c210626
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210626
关键词
无监督视频目标分割,运动引导,局部注意力,互注意力
摘要
大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation, UVOS)算法存在模型参数量与计算量较大的问题, 这显著限制了算法在实际中的应用. 提出了基于运动引导的视频目标分割网络, 在大幅降低模型参数量与计算量的同时, 提升视频目标分割性能. 整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成. 具体地, 首先, RGB图像与光流估计输入双流网络提取物体外观特征与运动特征; 然后, 运动引导模块通过局部注意力提取运动特征中的语义信息, 用于引导外观特征学习丰富的语义信息; 最后, 多尺度渐进融合模块获取双流网络的各个阶段输出的特征, 将深层特征渐进地融入浅层特征, 最终提升边缘分割效果. 在3个标准数据集上进行了大量评测, 实验结果表明了该方法的优越性能.
文章导读
无监督视频目标分割(Unsupervised video object segmentation, UVOS)目的是在没有任何人为干预的情况下从视频中自动分割出显著的对象. 这种自动分割主要目标的任务近年来受到了广泛的关注, 并在计算机视觉的许多领域产生了巨大的影响, 包括监控、机器人和自动驾驶等.
传统方法通常使用手工特征来解决这一问题, 例如运动边界[1]、稀疏表示[2]、显著性[3-4]和点轨迹[2, 5-6]. 尽管上述算法取得了一定的成功, 但在准确发现整个视频序列中最显著的对象方面还不够理想. 随着深度学习的兴起, 最近的几项研究试着将这一问题建模为零目标帧问题[7-8]. 这些方法通常从大规模的训练数据中学习一个强大的对象表示, 然后调整模型来测试视频, 而不需要任何注释.
尽管上述方法取得了突破性的进展, 但是仍然存在问题. 上述方法使用重量级网络提取更好的特征表示, 例如基于ResNet101网络的DeepLab v3网络[9]同时使用复杂的机制, 捕获显著物体. 这些导致了较大的模型参数量, 较高的模型计算量, 较慢的模型训练与推理速度, 限制了算法在实际场合中的应用.
如何高效捕获显著物体是网络轻量化的关键. 在最近的研究中, 使用互注意力机制在不同视频帧之间捕获相似物体[10], 取得了较好效果, 但不能区分背景中与显著目标相似的物体, 且计算量较大. 基于人对运动物体的敏感性, 可以利用运动信息捕获显著物体. 同时由于视频中物体缓慢移动的先验信息, 基于局部匹配的运动信息提取方法较为高效, 因此本文使用光流估计网络提取运动信息.
同时, 提取RGB图像中物体的外观特征来补充运动信息缺少的具体细节, 提升最终分割效果. 因为RGB图像与光流估计存在像素点对应的关系, 光流估计中的运动信息又包含了显著物体的大致位置与轮廓信息, 所以可以在运动信息中使用局部注意力机制得到卷积权重, 引导外观特征学习语义, 减低RGB图像支路的特征提取难度. 这种运动信息引导外观信息学习的方法, 使得本文算法在使用轻量级特征提取器的同时, 可以获得良好的特征提取质量, 降低了模型参数量与模型计算量. 最后, 将提取的多个阶段特征送入多尺度渐进融合模块, 经过卷积与上采样的组合, 不断增强高分辨率特征的语义信息, 得到更加准确的分割结果.
本文主要贡献如下:
1)提出一种轻量级无监督视频目标分割算法, 大幅缩小模型参数量与模型计算量, 显著提升了无监督视频目标分割算法的速度.
2)基于运动先验信息, 设计出一种基于局部注意力的运动引导模块, 通过局部注意力提取运动信息中的语义信息, 并以卷积权重的形式引导外观特征学习语义, 最终提升分割性能.
3)与当前最先进的方法相比, 本文方法在多个标准数据集上取得了具有竞争力的实验结果, 表明了本文算法的有效性, 取得速度与精度的平衡.
图 1 网络框架图
图 2 注意力结构
图 3 UNet方式的上采样与多尺度渐进融合模块
本文提出了一种基于运动引导的无监督视频目标分割算法. 首先, 通过双流网络提取运动与外观特征; 然后, 经过运动引导模块引导外观特征学习显著的特征, 从而避免重量级特征提取器与互注意力机制带来的巨大计算量; 最后, 多尺度渐进融合模块不断将高级语义融入到浅层特征中, 得到最终预测的分割结果. 在多个标准评测数据集上的实验结果, 都充分验证了本文算法的优越性.
作者简介
赵子成
南京信息工程大学自动化学院硕士研究生. 主要研究方向为视频目标分割, 深度学习. E-mail: 20191222013@nuist.edu.cn
张开华
南京信息工程大学自动化学院教授. 主要研究方向为视频目标分割, 视觉追踪. 本文通信作者. E-mail: zhkhua@gmail.com
樊佳庆
南京信息工程大学自动化学院硕士研究生. 主要研究方向为视频目标分割. E-mail: jqfan@nuaa.edu.cn
刘青山
南京信息工程大学自动化学院教授. 主要研究方向为视频内容分析与理解. E-mail: qsliu@nuist.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 22:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社