|
引用本文
范兵兵, 葛利跃, 张聪炫, 李兵, 冯诚, 陈震. 基于多尺度变形卷积的特征金字塔光流计算方法. 自动化学报, 2023, 49(1): 197−209 doi: 10.16383/j.aas.c220142
Fan Bing-Bing, Ge Li-Yue, Zhang Cong-Xuan, Li Bing, Feng Cheng, Chen Zhen. A feature pyramid optical flow estimation method based on multi-scale deformable convolution. Acta Automatica Sinica, 2023, 49(1): 197−209 doi: 10.16383/j.aas.c220142
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220142
关键词
光流,深度学习,变形卷积,特征金字塔,边缘保护
摘要
针对现有深度学习光流计算方法的运动边缘模糊问题, 提出了一种基于多尺度变形卷积的特征金字塔光流计算方法. 首先, 构造基于多尺度变形卷积的特征提取模型, 显著提高图像边缘区域特征提取的准确性; 然后, 将多尺度变形卷积特征提取模型与特征金字塔光流计算网络耦合, 提出一种基于多尺度变形卷积的特征金字塔光流计算模型; 最后, 设计一种结合图像与运动边缘约束的混合损失函数, 通过指导模型学习更加精准的边缘信息, 克服了光流计算运动边缘模糊问题. 分别采用 MPI-Sintel 和 KITTI2015 测试图像集对该方法与代表性的深度学习光流计算方法进行综合对比分析. 实验结果表明, 该方法具有更高的光流计算精度, 有效解决了光流计算的边缘模糊问题.
文章导读
光流是指图像序列中运动目标或场景表面像素点的二维运动矢量, 其不仅包含了物体或场景的运动参数, 还携带了图像中运动目标丰富的结构信息, 因此, 针对图像序列光流计算技术的研究一直是图像处理、计算机视觉等领域的研究热点. 相关研究成果广泛应用于目标跟踪[1]、图像配准[2]、表情识别[3]、运动遮挡检测[4] 和机器人视觉导航[5] 等高级视觉任务.
自 Horn 和 Schunck 提出变分光流计算技术以来, 图像序列光流计算技术在光流计算精度和鲁棒性方面已经取得显著提升[6]. 然而, 随着图像序列包含的场景任务日益复杂, 光流计算的难度越来越大. 例如, 当图像序列中包含运动遮挡、大位移以及非刚性形变等困难复杂场景时, 当前光流计算方法在精度与鲁棒性方面仍亟需进一步提高. 特别在图像与运动边缘区域, 现有光流计算方法普遍存在较为严重的信息丢失与模糊问题. 针对该问题, 传统变分光流计算方法通常采用在能量泛函中附加约束项[6] 或设计边缘保护策略来改善该问题[7]. 例如, Zhang 等[8] 提出一种基于三角网格的遮挡检测约束项并将其与变分能量泛函耦合, 通过补偿光流计算中损失的遮挡信息, 显著提升了图像与运动边缘区域光流计算精度. Mei 等[9] 将局部优化策略与全局优化策略相结合, 提出一种局部与全局耦合的加权正则变分光流计算模型, 提高了光照变化场景光流计算的精度与鲁棒性. 针对大位移运动场景光流计算准确性较低问题, Chen 等[10] 将块匹配策略与由粗到细的光流计算方案相结合, 提高了大位移运动光流计算精度, 但该方案易导致边缘模糊和细节结构信息丢失. 为此, Deng 等[11] 提出一种新颖的可微邻域搜索上采样模块, 并将其与由粗到细光流计算方案结合, 较好地保护了图像与边缘结构. 后续, 文献[12] 在光流金字塔分层优化过程中集成结构引导滤波, 利用结构引导滤波具有边缘保护的作用, 实现光流计算运动边缘的保护. Dong 等[13] 进一步将滤波技术与非局部项相结合, 提出一种非局部传播的滤波光流优化方案, 在减少光流计算异常值的同时保留了丰富的上下文信息.
近年来, 随着人工智能与深度学习技术的飞速发展, 基于深度学习的光流计算技术得到广泛关注. Dosovitskiy 等[14] 率先将卷积神经网络引入光流计算, 提出 FlowNet 深度学习光流计算模型, 该模型通过采用编码−解码结构极大地缩短了光流计算所需的时间, 同时也奠定了深度学习光流计算网络的基本结构. 然而, FlowNet 的网络结构比较简单, 光流计算精度较低. 后续, Ilg 等[15] 将FlowNet网络结构进行多次堆叠, 并将堆叠后的网络命名为 FlowNet 2.0, 与 FlowNet 相比, FlowNet 2.0 网络深度更深, 光流计算精度也更高. 但多次堆叠操作使得 FlowNet 2.0 网络结构过于臃肿复杂, 模型训练不仅困难而且易陷入过拟合. 为了在光流计算精度与模型尺寸之间寻求平衡, Sun 等[16] 将特征金字塔、变形操作、成本体积代价集成在统一的光流计算网络框架中, 提出 PWC-Net 光流计算方法. 该方法在简化网络尺寸的同时大幅提高了光流计算的精度与鲁棒性. 然而, 上述方法均为有监督深度学习光流计算方法, 需要提供大量具有真实标签的样本数据用于模型训练, 因此难以应用于真实任务场景. 受传统变分光流中的能量泛函启发, Yu 等[17] 通过设计基于数据项与平滑项相结合的损失函数, 实现了基于无监督学习的光流计算. 这在一定程度使深度学习光流计算模型摆脱了对标签样本数据的依赖, 但光流计算精度大幅落后于有监督学习方法. 为此, Liu 等[18] 借鉴知识蒸馏思想, 提出一种基于数据驱动的蒸馏学习无监督光流计算模型 DDFlow. 该方法通过数据驱动自动学习和预测光流, 在提高光流计算精度的同时实现了实时无监督光流计算.
现阶段, 基于深度学习的光流计算方法虽然已取得较大进展, 光流计算精度不断提高. 但是, 由于大位移、运动遮挡以及非刚性运动违背了网络模型设计的先验知识, 因此光流计算在图像与运动边缘区域存在模糊的问题仍未得到妥善解决. Hur 等[19] 通过引入遮挡真实值, 设计一种遮挡解码器对遮挡区域特征学习并利用学习到的遮挡信息约束遮挡区域的光流计算, 一定程度缓解了该问题. 然而, 包含遮挡真实值的数据集较少, 难以满足大规模使用. 为了克服该问题, Zhao 等[20] 提出一种不需要遮挡真实值的非对称特征匹配模块学习遮挡掩膜, 以约束遮挡区域光流计算. Meister 等[21] 借鉴变分遮挡光流计算策略, 设计一种前后一致性损失函数用于指导网络学习遮挡特征信息, 有效保护了图像与运动边缘.
当前, 基于深度学习的光流计算网络模型大多都致力于研究新的先验知识来设计光流计算网络结构. 然而, 相对于之前的网络, 这些网络结构往往非常复杂且难以训练, 不仅大幅增加了深度学习光流计算的难度, 而且还进一步提高了计算成本. 针对上述问题, 本文从图像特征提取网络模型的设计入手, 提出一种基于多尺度变形卷积的特征提取模型, 并将其与特征金字塔光流计算网络耦合, 在少量增加原有网络结构复杂度的同时提高编码器网络的特征提取能力, 从而获取更加准确的图像特征. 此外, 为了保护图像与运动边缘, 本文又设计一种结合图像与运动边缘约束的混合损失函数, 来指导模型学习更加精准的边缘信息. 实验结果证明, 本文方法具有更高的光流计算精度, 有效解决了光流计算的边缘模糊问题.
图 1 标准卷积与变形卷积图像特征提取示意图与对应模型光流计算结果
图 2 多尺度变形卷积特征提取网络结构示意图
图 3 本文方法特征提取与标准卷积特征提取结果可视化对比
本文通过构建多尺度变形卷积特征提取网络并将其与特征金字塔光流估计网络模型耦合, 提出了一种基于多尺度变形卷积的图像序列光流计算方法. 该方法首先通过多尺度变形卷积特征提取网络获取准确的图像特征信息. 然后, 设计了一种新的混合损失函数, 将图像与运动边缘约束正则化项、数据项损失和端点误差结合, 用以指导网络模型学习更加精准的图像与运动边缘信息, 使损失函数可以更好地约束图像与运动边缘区域光流计算. 通过大量实验对比分析, 表明本文方法具有较高的光流计算精度, 特别在运动边缘区域具有较好的保护效果.
作者简介
范兵兵
南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. E-mail: 1908080400123@stu.nchu.edu.cn
葛利跃
南昌航空大学助理实验师. 主要研究方向为图像检测与智能识别. E-mail: lygeah@163.com
张聪炫
南昌航空大学测试与光电工程学院教授. 2014年获得南京航空航天大学博士学位. 主要研究方向为图像处理, 计算机视觉. 本文通信作者. E-mail: zcxdsg@163.com
李兵
中国科学院自动化研究所模式识别国家重点实验室研究员. 2009年获得北京交通大学博士学位. 主要研究方向为视频内容理解, 多媒体内容安全. E-mail: bli@nlpr.ia.ac.cn
冯诚
北京航空航天大学仪器科学与光电工程学院博士研究生. 主要研究方向为图像处理, 计算机视觉. E-mail: fengcheng00016@163.com
陈震
南昌航空大学测试与光电工程学院教授. 2003年获得西北工业大学博士学位. 主要研究方向为图像处理, 计算机视觉. E-mail: dr_chenzhen@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 11:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社