IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

融合显著性与运动信息的相关滤波跟踪算法

已有 655 次阅读 2022-8-16 17:15 |系统分类:博客资讯

引用本文

 

张伟俊, 钟胜, 徐文辉, WU Ying. 融合显著性与运动信息的相关滤波跟踪算法自动化学报, 2021, 47(7): 15721588 doi: 10.16383/j.aas.c190122

Zhang Wei-Jun, Zhong Sheng, Xu Wen-Hui, Wu Ying. Correlation filter based visual tracking integrating saliency and motion cues. Acta Automatica Sinica, 2021, 47(7): 15721588 doi: 10.16383/j.aas.c190122

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190122

 

关键词

 

视觉目标跟踪,运动分析,显著性检测,像素级概率模型,相关滤波 

 

摘要

 

主流的目标跟踪算法以矩形模板的形式建立被跟踪物体的视觉表征, 无法有效区分目标与背景像素, 在背景复杂、目标非刚体形变、复杂运动等挑战性因素影响下容易出现模型偏移的问题, 导致跟踪失败. 与此同时, 像素级的显著性信息与运动先验信息作为人类视觉系统有效区分目标与背景、识别运动物体的重要信号, 并没有在主流目标跟踪算法中得到有效的集成利用. 针对上述问题, 提出目标的像素级概率性表征模型, 并且建立与之对应的像素级目标概率推断方法, 能够有效利用像素级的显著性与运动观测信息, 实现与主流的相关滤波跟踪算法的融合; 提出基于显著性的观测模型, 通过背景先验与提出的背景距离模型, 能够在背景复杂的情况下得到高辨识度的像素级图像观测; 利用目标与相机运动的连续性来计算目标和背景的运动模式, 并以此为基础建立基于运动估计的图像观测模型. 实验结果表明, 提出的目标表征模型与融合方法能够有效集成上述像素级图像观测信息, 提出的跟踪方法总体跟踪精度优于多种当下最先进的跟踪器, 对跟踪场景中的背景复杂、目标形变、平面内旋转等挑战性因素具有更好的鲁棒性.

 

文章导读

 

随着越来越多的智能机器的普及应用, 计算机视觉作为机器的眼睛”, 担负着感知和理解外部世界的功能, 成为一项迫切的需求. 视觉目标跟踪[1-2]的主要任务是在视频图像序列中建立目标的运动轨迹, 在智能视频监控[3]、自动驾驶[4]、人机交互[5]、机器人导航[6]、医学诊断[7]等领域均有广泛的应用. 这些上层算法应用的性能很大程度上受限于目标跟踪算法的性能, 因此提高目标跟踪算法的鲁棒性、准确率与实时性, 能够为各领域的发展提供必要的技术支撑与理论促进, 具有重大的意义.

 

在视觉目标跟踪技术的众多分支中, 针对通用物体的在线目标跟踪技术由于不需要使用预训练的物体模型, 对跟踪任务执行的场景、被跟踪物体的类别、形状、运动模式均无特殊的限定与要求, 存在极其广泛的应用需求, 因此成为众多计算机视觉系统与应用的底层关键技术之一, 近十年来一直是计算机视觉领域中一个非常活跃的研究课题. 与此同时, 由于存在目标及场景先验知识缺乏, 物体及环境变化不可预测等诸多因素, 与已知物体类别的跟踪[8-9]相比, 对建模方法的适应性有着更高的要求. 要长时间准确定位目标, 算法必须适应目标及场景的各种变化, 典型的变化包括目标尺度变化、非刚体形变、背景干扰、快速运动与复杂运动等, 这些都给通用物体的在线跟踪任务带来了极大的挑战. 尽管近年来在理论和应用上均取得了显著的进展[10-11], 在线目标跟踪的研究仍有很多关键问题亟待解决, 其中之一是被跟踪物体的表征与建模, 即目标表征问题.

 

无论是经典的生成式模型[12-13] (Generative model), 还是近年来较为主流的判别式模型[14-15] (Discriminative model) 以及基于深度学习的方法[16-18]都使用了外接目标区域的矩形模板来表征被跟踪目标. 虽然这些算法在刚性物体跟踪上取得了很好的效果, 但是大部分缺乏能够十分有效区分目标与背景像素的机制. 由于目标模型里包含了一部分背景区域, 随着噪声和误差的累积, 模型容易慢慢偏移到背景上面去, 同时也比较难对目标的形状变化实现自适应调整, 在背景干扰、目标形变明显或者复杂运动的场景下容易逐渐丢失目标.

 

与此不同的是, 人类视觉系统能够明确地区分目标与背景的区域, 并不以矩形模板的形式表征和建模物体. 研究表明, 人类的视觉机制具有异常突出的数据筛选能力, 能够快速有效地识别复杂场景中的显著性区域, 准确定位感兴趣的目标[19-20]. 人类能够轻松实现对目标的稳定跟踪, 视觉注意机制扮演了重要的角色. 因此, 在目标跟踪算法中建模显著性机制, 对其提供的像素级观测信息进行集成利用, 以提高跟踪算法的鲁棒性与准确率, 具有重要的意义.

 

人类处理运动物体的另一个特点是具备关于运动的先验知识, 知道属于同一个物体的像素有同样的运动趋势. 认知与心理学的研究[21-22]表明, 几个月大的婴儿就已经有关于自由物体连续和平滑运动的知识, 能够根据这些知识辅助预测和判断物体的走向. 这些关于物体显著性和运动的知识, 目前都没有在目标跟踪方法中被很好地建模与集成利用.

 

上述像素级先验信息没有被有效利用, 一个重要的原因是当前主流的目标跟踪模型使用了基于矩形模板的目标表征模型, 无法有效地融合这些像素级的图像观测. 因此, 本文提出使用像素级概率性目标表征模型, 将目标跟踪任务建模为一个像素级目标概率的贝叶斯推断 (Bayesian inference) 问题, 在每一帧使用前后帧的像素关联来向前传递目标概率, 再进一步融合当前帧显著性模型和运动观测模型提供的像素级图像证据, 递推地产生目标概率图. 该模型提供了与当前主流矩形模板目标表征模型互补的信息, 可以用来预测目标位置, 与使用矩形模板目标表征的算法进行融合决策, 提升目标跟踪算法在背景干扰、目标形变、复杂运动等场景下的鲁棒性. 同时, 像素级的目标概率图也可产生目标分割结果, 为视频目标分割、增强现实以及行为分析等应用和研究提供帮助.

 1  总体跟踪流程图

 2  像素级目标概率推断模型的贝叶斯网络示意图

 3  基于颜色与基于显著性的目标似然概率估计结果对比

 

本文在视觉目标跟踪的应用中, 提出了一种像素级概率性目标表征模型, 用于集成与主流的矩形框模板表征模型互补的观测信息, 并且对多目标表征模型提供的信息进行融合决策. 具体建立了感兴趣区域像素目标概率的贝叶斯推断模型, 每一帧通过上一帧的估计结果和状态传递概率预测本帧像素点的目标概率, 再融合本帧的像素级图像观测进行修正. 像素级图像观测部分建模和集成了被主流目标跟踪算法所忽略、而在人类视觉系统中十分重要的显著性信息与运动信息. 其中, 基于显著性的观测模型具体使用背景先验和最小障碍距离算法进行建模, 能够在背景干扰的情况下提供具备高辨识度的图像证据; 基于运动信息的观测模型则利用了相机与目标运动的连续性, 通过计算目标和背景的运动模式, 建立像素级的图像证据, 能够为目标复杂运动的场景提供有效决策信息. 实验结果表明, 提出的模型能够有效地融合像素级的显著性与运动信息, 增强跟踪算法在背景干扰、目标形变严重、复杂运动等挑战性跟踪场景下的鲁棒性, 与同类跟踪算法相比, 在跟踪精度、鲁棒性和运行速度方面具有较大的综合优势, 具有较高的实用价值.

 

作者简介

 

张伟俊

华中科技大学人工智能与自动化学院博士研究生. 2012年获得华中科技大学电子信息工程系学士学位. 主要研究方向为计算机视觉,模式识别.本文通信作者. E-mail: starfire.zhang@gmail.com

 

钟胜

华中科技大学人工智能与自动化学院教授. 2005年获得华中科技大学模式识别与智能系统博士学位. 主要研究方向为模式识别, 图像处理, 实时嵌入式系统. E-mail: zhongsheng@hust.edu.cn

 

徐文辉

华中科技大学人工智能与自动化学院博士研究生. 2006年获得吉林大学大学学士学位. 主要研究方向为计算机视觉, 算法加速. E-mail: xuwenhui@hust.edu.cn

 

WU Ying

美国西北大学电子工程与计算机系终身正教授. 2005年获得美国伊利诺伊大学厄巴纳香槟分校电子与计算工程博士学位. 主要研究方向为计算视觉与图形学, 图像与视频处理, 多媒体, 机器学习, 人体运动, 人机智能交互, 虚拟现实. E-mail: yingwu@ece.northwestern.edu



https://blog.sciencenet.cn/blog-3291369-1351403.html

上一篇:基于强化学习的浓密机底流浓度在线控制算法
下一篇:基于改进差分进化和回声状态网络的时间序列预测研究
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-10-4 15:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部