博文

联合深度超参数卷积和交叉关联注意力的大位移光流估计

已有 819 次阅读 2024-9-18 17:04 |系统分类:博客资讯

引用本文

王梓歌, 葛利跃, 陈震, 张聪炫, 王子旭, 舒铭奕. 联合深度超参数卷积和交叉关联注意力的大位移光流估计. 自动化学报, 2024, 50(8): 1631−1645 doi: 10.16383/j.aas.c230049

Wang Zi-Ge, Ge Li-Yue, Chen Zhen, Zhang Cong-Xuan, Wang Zi-Xu, Shu Ming-Yi. Large displacement optical flow estimation jointing depthwise over-parameterized convolution and cross correlation attention. Acta Automatica Sinica, 2024, 50(8): 1631−1645 doi: 10.16383/j.aas.c230049

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230049

关键词

光流，大位移，交叉关联注意力，深度超参数卷积，深度学习

摘要

针对现有深度学习光流估计模型在大位移场景下的准确性和鲁棒性问题, 提出了一种联合深度超参数卷积和交叉关联注意力的图像序列光流估计方法. 首先, 通过联合深层卷积和标准卷积构建深度超参数卷积以替代普通卷积, 提取更多特征并加快光流估计网络训练的收敛速度, 在不增加网络推理量的前提下提高光流估计的准确性; 然后, 设计基于交叉关联注意力的特征提取编码网络, 通过叠加注意力层数获得更大的感受野, 以提取多尺度长距离上下文特征信息, 增强大位移场景下光流估计的鲁棒性; 最后, 采用金字塔残差迭代模型构建联合深度超参数卷积和交叉关联注意力的光流估计网络, 提升光流估计的整体性能. 分别采用MPI-Sintel和KITTI测试图像集对本文方法和现有代表性光流估计方法进行综合对比分析, 实验结果表明本文方法取得了较好的光流估计性能, 尤其在大位移场景下具有更好的估计准确性与鲁棒性.

文章导读

光流是指图像序列中运动目标或场景表面像素点的二维运动矢量, 其不仅提供了图像中运动目标和场景的运动参数, 还携带了丰富的结构信息. 因此, 图像序列光流估计技术研究是图像处理与计算机视觉领域的研究热点, 研究成果被广泛应用于人体姿态估计[1]、目标跟踪[2]、三维重建[3]、动作识别[4]和表情识别[5-6] 等更高级的视觉任务.

光流估计的目的是找到同一像素点在连续两帧图像序列变化过程中的对应匹配关系, 从而估计出该像素点的运动大小和方向. 自Horn和Schunck[7]开创性的将光流估计表述为能量最小化问题以来, 出现了许多有效的方法[8-10] 来提高光流估计的性能. 传统方法将光流估计视作一对图像间稠密位移场空间上的手工优化问题. 首先利用视觉相似图像区域对齐的数据项和对运动合理性施加先验正则的平滑项构建经典能量函数, 然后通过最小化能量方程以获取光流估计最优解. 虽然这种方法可以有效提升光流估计的准确性, 但是由于难以设计出对各种情况都具有鲁棒性的优化目标, 因而制约了其进一步发展与在工程领域的应用.

得益于深度学习理论和技术的突破性发展, 目前基于深度学习的光流估计方法已经在估计精度、鲁棒性以及推理时间方面全面超越经典的传统方法. 在模型结构方面, 基于深度学习的光流估计方法主要由特征提取模块、成本量模块和光流估计子网络模块组成. 其中, 特征提取模块是模型实现光流估计的关键, 其特征提取的质量严重影响后续成本量模块和光流估计子网络的工作性能. 在深度学习光流估计早期, 直接采用U-Net模式从连续两帧图像序列中提取图像特征用于光流估计[11], 但该方法获取的特征过于粗糙. 此后, 相关研究将图像金字塔引入光流估计网络用于捕获不同运动幅度的图像特征[12], 但分辨率的变化导致图像特征存在较为严重的信息丢失. 后续, 基于由粗到细特征金字塔编码结构的深度学习光流估计模型被证明可以有效处理大位移运动问题. 然而, 在金字塔采样过程中, 由于目标像素损失致使目标在传递过程中存在特征稀释问题, 从而造成大位移运动光流估计存在局部信息丢失, 特别是位移较大的小目标. 同时, 受标准卷积核可学习参数量的内在因素限制, 当前仅依赖标准卷积构建的特征提取网络在特征提取内容丰富度与置信度方面仍存在较大不足. 针对该问题, 传统的光流估计方法[13]通过将随机搜索策略与由粗到细的方案相结合, 以提高大位移运动光流估计精度. 但由于光流估计网络需要大量迭代估计, 导致模型精度与估计效率不能较好地平衡. 为此, Hur等[14]提出一种权值共享编码网络并使用迭代残差优化方案进一步细化光流结果, 在减少模型参数的同时提高了光流估计准确性. 但该模型仅集中于对光流估计的后置处理, 因此, 对特征稀释造成的大位移运动局部信息损失问题, 仍无法妥善解决.

为解决上述问题, 本文提出一种联合深度超参数卷积和交叉关联注意力的大位移光流估计方法. 首先, 针对光流估计模型特征提取置信度与丰富度较低问题, 构建基于深度超参数卷积的光流估计网络, 通过将深层卷积与标准卷积耦合提升卷积特征学习的丰富度, 从而捕获置信度更高的图像特征. 其次, 针对基于由粗到细策略的金字塔模型引起大位移运动局部信息丢失问题, 设计基于交叉关联注意力的特征提取编码网络进行局部到全局的特征编码模型, 通过改变不同尺度下的特征提取感受野增强长距离目标上下文信息建模能力, 从而提高大位移场景下光流估计的准确性与鲁棒性. 本文的主要贡献总结如下:

1) 首次将深层卷积引入光流估计任务, 并与标准卷积耦合构建基于深度超参数卷积的光流估计网络, 通过提高模型特征提取的置信度与内容丰富度, 不仅加快模型训练收敛速度还有效提升了光流估计的可靠性;

2) 提出一种交叉关联注意力的特征提取编码网络, 通过建立局部到全局的注意力感受野变化策略, 实现了不同尺度目标长距离上下文特征关联, 进一步提高了大位移运动光流估计的准确性与鲁棒性;

3) 采用MPI-Sintel与KITTI等权威测试数据集对本文方法和现有代表性深度学习方法进行综合实验对比分析. 结果表明, 本文方法在大多数测量指标上均取得了最优结果, 尤其在大位移运动区域.

本文内容安排如下: 第1节介绍了光流估计方法的相关工作; 第2节详述了所提出的联合深度超参数卷积和交叉关联注意力的光流估计方法; 第3节给出了本文方法模型损失函数与训练策略; 第4节详细叙述了实验结果与分析; 第5节是对全文的总结.

图 1 基于深度超参数卷积和交叉关联注意力的大位移光流估计网络示意图

图 2 深度超参数卷积和标准卷积示意图

图 3 深度超参数卷积操作

本文提出了一种联合深度超参数卷积和交叉关联注意力的大位移光流估计模型, 针对深度学习光流估计模型特征提取信息不足问题, 通过构建基于深度超参数卷积的特征提取网络, 在有效提升特征置信度的同时加速模型训练收敛速度. 针对大位移运动区域光流准确性较低问题, 本文设计了一个基于交叉关联注意力的全局特征提取编码网络, 通过扩大感受野并增强长距离上下文建模能力, 提高了大位移区域光流估计的准确性. 实验分别采用MPI-Sintel和KITTI数据集对本文方法和现有代表性深度学习光流估计方法进行了综合实验对比. 实验结果表明, 本文方法对于大位移运动区域具有较高的精度和鲁棒性, 尤其在包含较多位移运动的前景区域具有更显著的优势. 但在运动信息不足的背景区域本文方法仍存在一定的局限, 未来将结合像素级对象分割方法来提取目标运动信息, 并通过后处理优化的手段对背景丢失的光流信息进行恢复, 从而提高对背景区域光流估计的有效性.

作者简介

王梓歌

南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. E-mail: Wangzggg@163.com

葛利跃

南昌航空大学助理实验师. 北京航空航天大学仪器科学与光电工程学院博士研究生. 主要研究方向为图像检测与智能识别. E-mail: lygeah@163.com

陈震

南昌航空大学测试与光电工程学院教授. 2003年获得西北工业大学博士学位. 主要研究方向为图像处理与计算机视觉. E-mail: dr_chenzhen@163.com

张聪炫

南昌航空大学测试与光电工程学院教授. 2014年获得南京航空航天大学博士学位. 主要研究方向为图像处理与计算机视觉. 本文通信作者. E-mail: zcxdsg@163.com

王子旭

南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. E-mail: wangzixu0827@163.com

舒铭奕

南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. E-mail: shumingyi1997@163.com

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1451636.html

上一篇：会议日程‖ IEEE/CAA JAS创刊10周年专题研讨会
下一篇：目标跟踪中基于IoU和中心点距离预测的尺度估计

收藏 IP: 150.242.79.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

联合深度超参数卷积和交叉关联注意力的大位移光流估计

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

联合深度超参数卷积和交叉关联注意力的大位移光流估计

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)