|
引用本文
王龙, 宋慧慧, 张开华, 刘青山. 反馈学习高斯表观网络的视频目标分割. 自动化学报, 2022, 48(3): 834−842 doi: 10.16383/j.aas.c200288 Wang Long, Song Hui-Hui, Zhang Kai-Hua, Liu Qing-Shan. Feedback learning gaussian appearance network for video object segmentation. Acta Automatica Sinica, 2022, 48(3): 834−842 doi: 10.16383/j.aas.c200288 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200288?viewType=HTML 文章简介 关键词 视频目标分割, 表观建模, 反馈机制 摘 要 大量基于深度学习的视频目标分割方法存在两方面局限性: 1)单帧编码特征直接输入网络解码器, 未能充分利用多帧特征, 导致解码器输出的目标表观特征难以自适应复杂场景变化; 2)常采用前馈网络结构, 阻止了后层特征反馈前层进行补充学习, 导致学习到的表观特征判别力受限. 为此, 本文提出了反馈高斯表观网络, 通过建立在线高斯模型并反馈后层特征到前层来充分利用多帧、多尺度特征, 学习鲁棒的视频目标分割表观模型. 网络结构包括引导、查询与分割三个分支. 其中, 引导与查询分支通过共享权重来提取引导与查询帧的特征, 而分割分支则由多尺度高斯表观特征提取模块与反馈多核融合模块构成. 前一个模块通过建立在线高斯模型融合多帧、多尺度特征来增强对外观的表征力, 后一个模块则通过引入反馈机制进一步增强模型的判别力. 最后, 本文在三个标准数据集上进行了大量评测, 充分证明了本方法的优越性能. 引 言 视频目标分割通常被建模为半监督学习任务, 即在给定初始帧目标掩模标注的前提下, 精确分割出后续帧中特定目标区域. 视频目标分割在众多计算机视觉任务中具有重要的应用价值, 包括视频编辑、目标追踪和动作识别等. 近年来, 随着深度学习的兴起, 视频目标分割也取得了突破性进展. 但是, 精度高且速度快的算法仍然非常匮乏, 其原因在于所学深度模型仍难以有效应对复杂视频场景的变化, 如严重遮挡、快速运动、相似目标干扰等. 为此, 一些视频目标分割算法在不同方面进行了尝试. 其中, 文献[1-2, 13-14]中的算法在测试阶段用第1帧及其标注在线微调网络; 另外, 文献[2, 15-17]中的算法将视频分割任务视为掩膜逐帧传播过程. 但是, 由于未充分考虑复杂场景的表观建模, 这些方法在一些复杂场景下表现不佳. 为此, 一些算法试图通过增强目标与背景的特征表征力来提升表观模型的判别力. 譬如, 文献[3]通过利用匹配(Matching)操作与排序注意力模块学习查询帧中的每个像素与引导帧中所有像素之间的相似程度来构建鲁棒的表观模型; 文献[4]设计了两个新颖的子网络调制器, 将视觉和空间信息通过网络调制构建表观模型, 并嵌入分割子网络进行学习. 但是, 这些方法只利用单帧的特征学习表观建模, 未能充分捕获视频的时域上下文信息, 难以自适应复杂场景的变化. 针对该问题, 本文设计出一种在线多帧、多尺度高斯表观网络模块, 通过在线学习目标与背景的特征分布来提升表观模型的判别力. 除此之外, 大量掩膜传播类算法将前一帧的预测结果作为当前帧的额外输入进行处理. 这种结构可视为时间维度的循环结构. 但是, 鲜有算法在空间维度也构建循环结构, 而空间维循环可将高层特征反馈到低层, 从而充分利用前、后层特征信息学习更加鲁棒的表观模型. 鉴于此, 本文通过引入这种反馈机制设计出反馈多核融合模块, 用于引导学习更加鲁棒的表观模型. 本文的主要贡献总结如下: 1) 提出一种在线多帧、多尺度高斯表观模型, 充分学习多尺度特征的统计信息, 增强对目标与背景表观的判别力; 2) 将信息反馈的思想引入视频目标分割, 设计出一种反馈多核融合模块, 允许前层特征捕捉后层的有用信息; 3) 本文算法与当前最先进的方法相比, 在多个标准数据集上达到领先水平, 证明了本文算法的优越性. 图 1 网络结构图 图 4 分割结果展示 作者简介 王 龙 南京信息工程大学自动化学院硕士研究生. 主要研究方向为视频目标分割, 深度学习. E-mail: nj-wl@foxmail.com 宋慧慧 南京信息工程大学自动化学院教授. 主要研究方向为视频目标分割, 图像超分. 本文通信作者. E-mail: songhuihui@nuist.edu.cn 张开华 南京信息工程大学自动化学院教授. 主要研究方向为视频目标分割, 视觉追踪. E-mail: zhkhua@gmail.com 刘青山 南京信息工程大学自动化学院教授. 主要研究方向为视频内容分析与理解. E-mail: qsliu@nuist.edu.cn 相关文章 [1] 张琳, 陆耀, 卢丽华, 周天飞, 史青宣. 一种改进的视频分割网络及其全局信息优化方法. 自动化学报. doi: 10.16383/j.aas.c190292 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190292?viewType=HTML [2] 赵子成, 张开华, 樊佳庆, 刘青山. 基于运动引导的高效无监督视频目标分割网络. 自动化学报. doi: 10.16383/j.aas.c210626 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210626?viewType=HTML [3] 肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测. 自动化学报. doi: 10.16383/j.aas.c190805 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190805?viewType=HTML [4] 钱银中, 沈一帆. 姿态特征与深度特征在图像动作识别中的混合应用. 自动化学报, 2019, 45(3): 626-636. doi: 10.16383/j.aas.2018.c170294 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170294?viewType=HTML [5] 黄宏图, 毕笃彦, 侯志强, 胡长城, 高山, 查宇飞, 库涛. 基于稀疏表示的视频目标跟踪研究综述. 自动化学报, 2018, 44(10): 1747-1763. doi: 10.16383/j.aas.2018.c170209 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170209?viewType=HTML [6] 石杰, 李银伢, 戚国庆, 盛安冬. 不完全量测下基于事件触发机制的面目标跟踪系统CRLB. 自动化学报, 2018, 44(9): 1648-1661. doi: 10.16383/j.aas.2017.c160796 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160796?viewType=HTML [7] 丁洁, 肖江剑, 况立群, 宋康康, 彭成斌. 基于长时间视频序列的背景建模方法研究. 自动化学报, 2018, 44(4): 707-718. doi: 10.16383/j.aas.2017.c160468 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160468?viewType=HTML [8] 王雪, SHIJian-Bo, PARKHyun-Soo, 王庆. 基于运动目标三维轨迹重建的视频序列同步算法. 自动化学报, 2017, 43(10): 1759-1772. doi: 10.16383/j.aas.2017.c160584 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160584?viewType=HTML [9] 薄一航, HAOJiang. 视频中旋转与尺度不变的人体分割方法. 自动化学报, 2017, 43(10): 1799-1809. doi: 10.16383/j.aas.2017.c150841 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150841?viewType=HTML [10] 管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应用进展与展望. 自动化学报, 2016, 42(6): 834-847. doi: 10.16383/j.aas.2016.c150705 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150705?viewType=HTML [11] 苏亮亮, 唐俊, 梁栋, 王年. 基于最大化子模和RRWM的视频协同分割. 自动化学报, 2016, 42(10): 1532-1541. doi: 10.16383/j.aas.2016.c150459 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150459?viewType=HTML [12] 黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪. 自动化学报, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150416?viewType=HTML [13] 尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自动化学报, 2016, 42(10): 1466-1489. doi: 10.16383/j.aas.2016.c150823 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150823?viewType=HTML [14] 黎万义, 王鹏, 乔红. 引入视觉注意机制的目标跟踪方法综述. 自动化学报, 2014, 40(4): 561-576. doi: 10.3724/SP.J.1004.2014.00561 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00561?viewType=HTML [15] 段纳, 解学军. 具有iISS未建模动态的非线性系统的状态反馈调节. 自动化学报, 2010, 36(7): 1033-1036. doi: 10.3724/SP.J.1004.2010.01033 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.01033?viewType=HTML [16] 刘少华, 张茂军, 熊志辉, 陈旺. 一种鲁棒高效的视频运动目标检测与跟踪算法. 自动化学报, 2009, 35(8): 1055-1062. doi: 10.3724/SP.J.1004.2009.01055 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01055?viewType=HTML [17] 刘国才, 王耀南. 多层Mumford-Shah向量值图像分割、去噪与重建模型. 自动化学报, 2007, 33(6): 602-607. doi: 10.1360/aas-007-0602 http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0602?viewType=HTML [18] 褚一平, 张引, 叶修梓, 张三元. 基于隐条件随机场的自适应视频分割算法. 自动化学报, 2007, 33(12): 1252-1258. doi: 10.1360/aas-007-1252 http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1252?viewType=HTML [19] 侯忠生, 许建新. 一种新的非线性离散时间系统迭代学习控制的前馈-反馈机制. 自动化学报, 2007, 33(3): 323-326. doi: 10.1360/aas-007-0323 http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0323?viewType=HTML [20] 夏勇, 王春恒, 戴汝为. 基于自适应特征与多级反馈模型的中英文混排文档分割. 自动化学报, 2006, 32(3): 353-359. http://www.aas.net.cn/cn/article/id/15821?viewType=HTML [21] 傅洁, 吴立德. 从表观运动来看运动的基本约束. 自动化学报, 1994, 20(1): 66-73. http://www.aas.net.cn/cn/article/id/14149?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-26 05:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社