Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

基于运动过滤和调整的离群点移除

已有 159 次阅读 2026-6-22 17:09 |系统分类:博客资讯

引用本文

 

赖桃桃, 张一凡, 李佐勇, 肖国宝, 林维斯, 王菡子. 基于运动过滤和调整的离群点移除. 自动化学报, 2026, 52(3): 593610 doi: 10.16383/j.aas.c250235

Lai Tao-Tao, Zhang Yi-Fan, Li Zuo-Yong, Xiao Guo-Bao, Lin Wei-Si, Wang Han-Zi. Outlier removal based on motion filtering and adjustment. Acta Automatica Sinica, 2026, 52(3): 593610 doi: 10.16383/j.aas.c250235

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250235

 

关键词

 

计算机视觉,离群点移除,运动过滤,规则化,调整

 

摘要

 

由现有的特征提取器建立的图像特征点匹配集合通常包含大量离群点, 这严重影响特征匹配的有效性和依赖匹配结果的下游任务的性能. 最近提出的几种离群点去除方法通过估计运动场来利用匹配对的运动一致性, 并使用卷积神经网络(CNN)来减少离群点造成的污染, 以捕获上下文. 然而, CNN在捕捉全局上下文方面存在固有缺陷, 其感受野的固定性与局部性导致模型难以自适应地整合远距离信息, 从而制约相关方法的性能. 与这些使用卷积神经网络直接估计运动场的方法不同, 本文尝试在不使用CNN的情况下估计高质量的运动场. 因此, 提出基于运动过滤和调整的网络, 以减轻在捕捉上下文时离群点的影响. 具体而言, 首先, 设计一个运动过滤模块, 以迭代地去除离群点并捕获上下文. 然后, 设计一个规则化和调整模块, 该模块先估计初始运动场, 接着通过利用额外的位置信息对其进行调整, 使其更加准确. 在离群点去除和相对姿态估计任务中, 利用室内和室外数据集评估所提出方法的性能. 实验结果表明, 与现有多种方法相比, 所提方法展现出更优的性能.

 

文章导读

 

特征匹配旨在建立来自同一场景或相似场景的图像对的可靠特征点对应关系, 这是模式识别与图像处理中许多任务的基础, 如同时定位与地图构建[1]、消失点估计[2]、点云配准[3]、图像拼接[4]、运动分割[5]. 给定一对图像, 典型的特征匹配流程包括特征提取、特征匹配和离群点去除. 具体而言, 首先使用现有的特征提取器(例如尺度不变特征变换(scale-invariant feature transform, SIFT)[6]和平方根归一化尺度不变特征变换(root scale-invariant feature transform, RootSIFT)[7])从图像中获取特征点和描述符; 然后特征匹配基于对应描述符的相似性建立初始的对应关系(匹配对); 最后离群点去除旨在识别和去除错误的匹配对(即离群点), 同时尽可能多地保留正确的匹配对(即内点).

 

许多复杂的场景增加了特征匹配任务的难度. 首先, 图像对可能包含重复结构、失真和遮挡. 其次, 图像对可能在视角、光照和深度方面有显著变化. 这些复杂的场景严重影响了初始匹配对的质量, 导致大量离群点的出现[8], 这给离群点去除带来挑战. 此外, 检测到的特征点通常聚集在纹理丰富的区域, 因此初始匹配对的分布通常是不均匀的, 并且会随着不同的图像场景而变化. 这使得从初始匹配对中收集可靠的信息变得困难.

 

在本文中, 针对CNN引发的问题, 从不同的角度重新审视了ConvMatch. ConvMatch利用图注意力网络(graph attention network, GAT)来估计运动场. 具体而言, GAT在估计过程中自适应地为离群点分配更低的权重, 以更有效地估计局部运动. 实际上, 这种机制有可能过滤掉少数离群点. 然而, 由于输入数据中的离群点比率通常很高, 甚至显著超过内点比率, GAT无法去除足够多的离群点, 进而难以获得高质量的运动场, 因此需要CNN的介入. 基于这一分析, 本文提出一种新的解决方案: 在估计运动场之前, 移除大部分相对容易识别的离群点并捕获上下文, 从而获得一组具有较高内点比率的运动向量. 针对剩余离群点引发的少量噪声, 在估计运动场时利用GAT自适应地削弱其影响, 即通过注意力机制为这些离群点分配较低的权重, 减少它们对运动场估计的影响. 这样, 所获得的运动场具有以下优点: 1)可以更好地保留内点所携带的正确信息, 如果内点分布在具有不同深度或视差的区域, 则估计的运动场自然具有不连续性; 2)不需要使用CNN进行去噪, 从根本上避免CNN的缺点.

 

基于上述想法, 本文提出一种有效的网络, 即运动过滤和调整网络(motion filtering and adjustment network, MFANet). 具体来说, 设计一个运动过滤(motion filtering, MF)模块, 该模块包含多个注意力池化层, 用于捕获上下文并逐步去除离群点. 另外, 设计一个规则化和调整(regularization and adjustment, RA)模块, 该模块使用不同尺度下的位置信息来估计和调整运动场.

 

MFANet通过MF模块与RA模块的协同配合, 旨在克服现有方法(ConvMatch)GAT在高离群点比例下性能受限的问题, 以及CNN类方法可能导致的运动场过度平滑与全局信息利用不足的局限. MF模块负责初步筛选与去噪, RA模块负责精细化运动场估计与优化, 两者共同提升匹配的可靠性与最终分类的准确性. 本文通过MF模块和RA模块, 构建了运动更新层, 该层是MFANet的主要组成部分.

 

从图1可以看出, 该示例中的内点分布于两个不同的区域(以不同颜色的框标出). U型网络式匹配(UNet-like match, U-Match)[26]ConvMatch仅能识别其中一个区域, 而所提MFANet则成功检测出全部两个区域, 并保留更多的内点, 体现其在复杂场景下的鲁棒性. 相较于只能部分保留内点的ConvMatch, MFANet在复杂场景中能够保留更完整的内点集合, 从而支持更精确的运动场估计. U-MatchConvMatch在本图示例场景中表现欠佳, 而本文方法能够克服其局限, 主要原因如下. 1所示场景同时包含重复纹理与显著视角变化, 且存在大量离群点. 在此类极具挑战的场景中:

1  通过U-MatchConvMatchMFANet建立的匹配对(内点和离群点分别用蓝色和红色线标记)

 

ConvMatch的性能受限主要源于其CNN的使用. GAT模块在高离群点比例下过滤能力有限, 导致部分噪声传递至后续的CNN模块. CNN本身具有的全局平滑特性在处理输入时容易削弱运动场在复杂场景中原本存在的不连续性, 该效应在输入含噪声时会被进一步放大, 最终对运动场估计精度产生不利影响.

 

U-Match的不足主要来自其正交融合模块的设计缺陷. 该模块通过加权平均池化生成全局特征, 可能导致全局上下文被少数高置信度局部区域主导, 使模型偏向学习特定区域的匹配模式, 而未能充分捕捉图1中较小区域的匹配关系.

 

本文方法通过以下机制提升在此类场景下的性能: 首先, MF模块在运动场估计前去除大量易识别离群点, 同时保留有效的上下文信息, 为后续处理提供高内点比例的运动向量; 其次, RA模块在运动场优化阶段利用注意力机制对残余离群点自适应分配低权重, 有效抑制其负面影响, 提升运动场估计的鲁棒性和准确性.

 

总之, 主要贡献如下:

 

1)提出MF模块, 以减轻初始匹配对中大多数离群点的负面影响. MF模块使用多个注意力池化层去除离群点, 并捕获有效的上下文.

 

2)提出RA模块, 用于生成和调整有序运动向量, 从而表示潜在的运动场. RA模块对无序运动向量进行规则化, 并引入额外的位置信息来调整有序运动向量, 以增强对复杂运动的表示.

 

3)基于MF模块和RA模块设计一种有效的网络MFANet, 该网络能够更精确地估计运动场, 进而更有效地去除初始匹配对中的离群点.

2  MFANet网络结构

3  单个注意力池化层

 

本文提出一个基于运动过滤和调整的图像特征匹配网络MFANet. 与现有方法不同, MFANet采用“先去除大部分噪声, 再估计运动场”的思路. 具体来说, 本文设计了一个运动过滤模块, 通过堆叠的注意力池化层过滤初始运动向量集合中的大部分离群点, 得到更加干净的运动向量集合. 在复杂场景中, 这种方式能更好地保留原始运动向量所体现的不同运动模式. 此外, 本文还设计了一个规则化和调整模块, 该模块从干净的运动向量集合中采样一个高质量的运动场, 并引入额外的位置信息来对运动场进行调整, 从而提高运动场估计的准确性. 在室内和室外场景数据集的实验结果均表明了所提出的方法在相机姿态估计任务和离群点去除任务中的优势. 对于网络结构的消融研究也说明了所提出模块的有效性. 总的来说, 相比于现有的多个先进方法, MFANet取得了显著的性能提升.

 

作者简介

 

赖桃桃

闽江学院计算机与大数据学院副教授. 2016年获得厦门大学计算机科学与技术专业博士学位. 主要研究方向为计算机视觉, 特征匹配, 模型拟合. E-mail: laitaotao@gmail.com

 

张一凡

福州大学计算机与大数据学院硕士研究生. 主要研究方向为计算机视觉和图像匹配. E-mail: yifan_fzu@163.com

 

李佐勇

闽江学院计算机与大数据学院教授. 2010年获得南京理工大学计算机科学与技术专业博士学位. 主要研究方向为图像处理, 模式识别, 深度学习. 本文通信作者. E-mail: fzulzytdq@126.com

 

肖国宝

同济大学计算机科学与技术学院教授. 2016年获得厦门大学计算机科学与技术专业博士学位. 主要研究方向为机器学习, 计算机视觉和模式识别. E-mail: gbx@tongji.edu.cn

 

林维斯

新加坡南洋理工大学计算机科学与工程学院教授. 1992年获得英国伦敦大学国王学院计算机视觉专业博士学位. 主要研究方向为智能图像处理、感知信号建模、视频压缩和多媒体通信. E-mail: wslin@ntu.edu.sg

 

王菡子

厦门大学信息学院闽江学者特聘教授. 2004年获得澳大利亚莫纳什大学计算机视觉专业博士学位. 主要研究方向为计算机视觉. E-mail: hanzi.wang@xmu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1540436.html

上一篇:基于观测器的混杂切换多智能体系统有界群一致性追踪
下一篇:《自动化学报》2026年52卷4期目录分享



    
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-27 16:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部