博文

视觉SLAM运动分割技术综述

已有 503 次阅读 2026-6-26 16:19 |系统分类:博客资讯

引用本文

冯嘉琪, 杨恺伦, 林家丞, 杨观赐. 视觉SLAM运动分割技术综述. 自动化学报, 2026, 52(4): 666−692 doi: 10.16383/j.aas.c250365

Feng Jia-Qi, Yang Kai-Lun, Lin Jia-Cheng, Yang Guan-Ci. A review of motion segmentation techniques for visual SLAM. Acta Automatica Sinica, 2026, 52(4): 666−692 doi: 10.16383/j.aas.c250365

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250365

关键词

视觉SLAM，动态环境，运动分割，运动理解，多传感器融合，移动机器人

摘要

作为移动机器人与自动驾驶领域的关键基础技术, 视觉同时定位与地图构建(V-SLAM)在动态环境中面临严峻挑战. 由动态物体引起的特征匹配错误常常导致定位偏差、地图失真以及系统鲁棒性受损. 运动分割技术是提高V-SLAM性能的重要手段, 但在复杂动态场景中准确区分静态和动态元素仍极具挑战性. 本文系统梳理V-SLAM运动分割研究进展, 根据对环境的潜在假设, 将现有方法分为三个主要研究范式, 并给出各范式的技术原理、代表性策略的核心优势、本质局限及适用边界. 最后展望未来的研究方向.

文章导读

同时定位与地图构建(simultaneous localization and mapping, SLAM)[1]技术是移动机器人、自动驾驶和增强现实领域开展自主导航和沉浸式交互体验的技术基础. 在机器人领域, 从地面移动机器人室内巡检、室外测绘到滑移转向机器人爬坡越障以及腿足机器人行走在复杂地形上, SLAM都是其开展自主定位与环境感知的必备技术[2]. 其中, 视觉同时定位与地图构建(visual simultaneous localization and mapping, V-SLAM)[3−4]凭借相机成本优势与丰富的视觉信息获取能力, 能够为服务机器人、巡检机器人等智能装备的自主感知与决策提供核心技术支撑, 有效满足其在复杂场景下的自主运行需求. 但在动态场景下由于相机的前方往往存在多个动态目标, 因此会导致V-SLAM系统误跟或者丢失特征点的情况出现, 进而导致定位系统的误差增加, 并进一步产生错误的导航决策结果. 为使位姿估计仍能保持准确, 需对动态与静态特征加以区分, 实现对动态特征的剔除, 这个过程被定义为运动分割[5]. 随着计算机视觉、人工智能与机器人学技术发展, 运动分割由原先单一基于几何特征匹配开始向融合深度学习语义理解转变[6−8], 这使得其能够更好地服务于机器人复杂任务场景(如人机协同、动态避障), 从而提高V-SLAM定位的稳定性.

现有的大部分视觉同时定位与建图方法通常建立在静态环境假设之上. 然而, 在真实场景中普遍存在大量的动态物体, 导致该假设在实际应用中往往不再成立. 对于地面机器人, 其运动受地表结构约束, 如果地面上出现动态物体(比如车辆、行人等), 有可能会打破运动模型的一致性; 同样地, 对于滑移转向机器人, 其运动学参数易受地形与载荷影响, 动态物体的出现也可能会导致运动学参数估算结果出现偏差. 因此, 提升系统在动态环境中的适应性, 关键在于构建对场景运动信息的“感知−理解−处理”闭环.

当前研究多聚焦于运动分割技术, 仅通过识别和分割动态区域, 难以支撑构建具有智能决策能力和强适应性的V-SLAM系统. 动态物体的运动状态(如瞬时速度、加速度)、运动模式(如刚性运动、非刚性变形、匀速或加减速)、动态交互(如物体间的相互遮挡与运动关联)以及多模态运动信息(如光流场、场景流、几何运动约束)中, 蕴含着丰富的环境动态特征. 这种让机器人或系统能够像人类一样“看明白”动态场景中的运动行为或变化, 通过感知、分析和解释物体或场景中的运动信息(如运动位置、运动方式、运动属性、运动关联), 从而推断出运动的目的、意图或背后规律的过程即为运动理解. 简言之, 运动理解就是让机器人或系统不仅能够看到想看的内容(感知), 还能像人类一样“一叶落而知秋”, 看懂运动行为背后蕴含的意义(认知). 运动理解不仅涵盖运动分割以识别哪里在动, 更延伸至多维度的深度解析: 1)运动状态解析, 即通过量化动态物体的速度、方向、轨迹等物理特征, 明确其运动方式; 2)运动模式识别, 即区分物体是刚体运动(如车辆)、非刚体运动(如行人、动物)还是周期性运动等特定模式, 理解其运动性质; 3)动态交互建模, 即分析动态物体间的相互作用(如避让、跟随)及与静态环境的交互(如遮挡关系), 理解其运动关系; 4)多模态信息融合, 即综合视觉(光流、场景流)、几何约束(对极几何、重投影误差)及多传感器(如惯性测量单元(inertial measurement unit, IMU)角速度、雷达径向速度)提供的运动线索, 形成对场景动态性的统一鲁棒表征, 将运动与高层语义关联, 把握其运动本质. 运动理解是动态环境下V-SLAM系统具备良好决策能力的关键, 也是对抗动态干扰的认知基础. 运动分割技术作为运动理解的核心基础, 是解决动态环境下V-SLAM定位失效与系统性能下降问题的直接且关键手段, 尤其是在复杂动态场景中, 其核心挑战在于如何实时、准确地实现静态与动态物体的有效分割与区分.

本文系统梳理视觉同时定位与建图的运动分割技术, 根据预设的环境条件将现有方法分为静态假设、语义信息和多传感器融合三大类体系, 分析现有方法的优缺点, 总结当前的方法对于运动物体分割效果较差的原因, 并重点论述如何实现语义理解以及深度学习模型的优化、多传感器的深度融合, 从而为突破视觉SLAM技术瓶颈、推动其在实际场景中的广泛应用提供理论支撑与技术参考.

图1 动态环境下光照变化示例

图2 现有运动分割方法总结

图3 运动分割方法性能对比

本文系统梳理了V-SLAM系统中运动分割技术的研究进展, 基于各类方法对场景预设条件的不同, 将现有主流技术归纳为基于静态场景假设的方法、基于语义信息的方法以及基于多传感器融合的方法, 并介绍了各种方法的技术特点、应用场景及优势和局限性. 基于静态场景假设的大部分方法无需先验语义信息或其他的传感器数据, 因此计算代价较小, 能够适用于大多数以静态为主场景下的检测和跟踪任务. 但是由于无法获得先验信息, 所以不能获取动态场景下目标之间的相对位置, 也就无法识别出各种类型的运动物体. 基于先验语义的知识可以利用目前较为成熟的深度学习技术进行训练, 可以从大规模数据集中提取场景对象, 大大提高目标的识别率. 但是由于语义信息量较大且复杂性较高, 造成其运算量大、实时性差, 很难满足V-SLAM系统的需求. 基于多传感器融合的方法是将视觉、IMU、激光雷达以及其他新式的传感器采集到的异构数据进行融合处理来提升整个系统精度. 但为了提升系统精度, 不但要做到精确的数据融合还需要解决大量的传感器标定、校准等问题, 所以数据融合的计算复杂度也随着传感器种类的不同而变化. 通过对动态环境下运动分割技术的深度剖析, 结合当前研究瓶颈与技术演进趋势, 未来V-SLAM运动分割技术将围绕“从分割到理解”的核心目标持续突破. 虽然现有的方法依然难以达到精度和实时性兼顾的效果, 运动理解的深度与广度仍有较大提升空间, 但是随着以后深度学习、时空特征融合、边缘计算、神经隐式表征以及多传感器融合等前沿技术的应用, 未来V-SLAM系统将能在更复杂的动态环境中实现高效、精准的运动分割, 为智能机器人、自动驾驶、增强现实等领域提供更稳定可靠的技术支持, 推动V-SLAM技术向更智能、更自主的方向发展.