Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

基于语义概念关联的参考多目标跟踪方法

已有 322 次阅读 2026-1-16 16:11 |系统分类:博客资讯

引用本文

 

林家丞, 陈嘉俊, 李智勇, 王耀南. 基于语义概念关联的参考多目标跟踪方法. 自动化学报, 2025, 51(12): 26642678 doi: 10.16383/j.aas.c250118

Lin Jia-Cheng, Chen Jia-Jun, Li Zhi-Yong, Wang Yao-Nan. Semantic conceptual association-based method for referring multi-object tracking. Acta Automatica Sinica, 2025, 51(12): 26642678 doi: 10.16383/j.aas.c250118

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250118

 

关键词

 

参考多目标跟踪,多模态融合,对比学习,目标跟踪,提示场景理解

 

摘要

 

参考多目标跟踪(RMOT)是一项利用语言与视觉模态数据进行目标定位与跟踪的任务, 旨在在视频帧中根据语言提示精准识别并持续跟踪指定目标. 尽管现有RMOT方法在该领域取得了一定进展, 但针对语言表述概念粒度的建模仍较为有限, 导致模型在处理复杂语言描述时存在语义解析不足的问题. 为此, 提出基于语义概念关联的参考多目标跟踪方法(SCATrack), 通过引入共享语义概念(SSC)和语义概念辅助生成(SCG)模块, 以提升模型对语言表述的深层理解能力, 从而增强跟踪任务的持续性与鲁棒性. 具体而言, SSC模块对语言表述进行语义概念划分, 使模型能够有效区分相同语义的不同表达方式, 以及不同语义间的相似表达方式, 从而提升多粒度输入条件下的目标辨别能力. SCG模块则采用特征遮蔽与生成机制, 引导模型学习多粒度语言概念的表征信息, 增强其对复杂语言描述的鲁棒性和辨别能力. 在两个广泛使用的基准数据集上的实验结果表明, 所提出的SCATrack显著提升了RMOT任务的跟踪性能, 验证了方法的有效性与优越性.

 

文章导读

 

参考目标跟踪(Referring object tracking, ROT)是一项结合语言与视觉模态信息的目标跟踪任务, 旨在根据语言提示在视频帧中精准定位并持续跟踪指定对象. 根据跟踪目标的数量, ROT可进一步划分为参考单目标跟踪(Referring single-object tracking, RSOT)[1]和参考多目标跟踪(Referring multi-object tracking, RMOT)[2]. 近年来, 得益于Transformer的强大表征能力, 现有研究围绕语言视觉融合[3]、文本条件查询[4]以及后处理优化[5]等方向展开深入探索. 尤其是在RMOT领域, 主流方法[2, 5]通过语言与视觉特征融合[6]以及跨帧查询传播机制[7], 显著提升了模型的目标定位能力. 然而, 当前方法仍面临一项核心挑战: 缺乏对语言表述内部概念关系的深层建模, 难以准确刻画不同概念间的因果关系及上下文依赖性, 从而限制了模型在处理复杂语言描述时的跟踪性能.

 

语言表述概念粒度的复杂性主要来源于两个方面: 一是语言表述本身的多样性, 二是多粒度输入带来的概念混淆. 首先, 语言描述通常由多个不同概念单元构成, 例如, 在表达“Cars moving in horizon direction”, “Cars”“horizon”“direction” 作为名词表征目标属性, “moving”作为动词描述目标状态, “in”则是介词用于连接不同概念单元. 如果模型无法准确理解不同词性间的语义关系, 便可能导致语义解析不足, 进而影响目标跟踪的准确性. 例如, 若模型对“moving”的理解不充分, 可能会将所有处于水平方向的汽车纳入候选目标, 而无法专注于那些真正处于移动状态的车辆, 从而降低参考跟踪的精准度. 其次, 多粒度输入策略已被证明能够增强模型对相同目标不同表达以及不同目标相同表达的协同理解能力. 然而, 这种输入方式也引入了新的挑战, 即如何在多粒度联合输入的条件下有效划分不同语言描述的概念类别. 如图1所示, 对于同一段输入视频, 其可能对应多种不同的语言表述, 这使得模型在对输入描述进行表征时面临较大的歧义, 进而影响跟踪精度.

1  现有RMOT方法与所提SCATrack方法的示意图

 

针对上述问题, 本文从语言表述概念粒度复杂性的解析出发, 重新审视参考多目标跟踪任务, 并提出共享语义概念的参考多目标跟踪框架(Semantic concept association-based RMOT, SCATrack), 旨在提升模型在复杂语言描述下的参考定位能力. 首先, 本文提出共享语义概念(Sharing semantic concept, SSC)的多粒度协同理解范式, 该范式通过对语言表述进行语义概念划分, 使模型能够区分相同语义的不同表达方式, 以及不同语义间的相似表达方式, 从而提升多粒度输入情况下的目标区分能力. 其次, 本文进一步设计语义概念辅助生成(Semantic concept auxiliary generation, SCG)模块, 该模块通过特征遮蔽与生成机制, 引导模型在不同样本中学习多粒度语言概念的表征信息, 增强模型对复杂语言描述的鲁棒性与辨别能力. 在多个基准数据集上的实验结果表明, 提出的SCATrack取得了最先进的参考多目标跟踪性能, 显著优于现有方法. 此外, SSCSCG组件有效增强了模型对参考表述的理解能力, 从而进一步提升跟踪任务的稳定性和精度.

 

总的来说, 本文的主要贡献如下:

 

1)从语言表述概念粒度复杂性的解析出发, 重新思考参考多目标跟踪任务并提出共享语义概念的参考多目标跟踪框架SCATrack, 旨在解决参考多目标跟踪方法中语言表述概念区分难的问题;

 

2)提出共享语义概念的多粒度协同理解范式SSC, 将语言表达划分为不同概念, 使模型具备区分相同语义不同表述以及不同语义相似表述的能力, 从而实现更精准的视觉特征聚合;

 

3)提出语义概念辅助生成SCG模块, 通过对分组特征的遮蔽与生成, 帮助模型从样本中学习不同语言概念的多粒度表征, 增强模型对语言表述的鲁棒性和辨别能力;

 

4)在多个基准数据集(Refer-KITTIRefer-BDD)上的实验结果表明, 所提出的SCATrack取得了最先进的参考多目标跟踪性能.

2  语义概念关联的参考多目标跟踪算法框架结构

3  SCATrack与现有RMOT方法在Refer-KITTI上的定性比较

 

本文提出共享语义概念的鲁棒参考多目标跟踪框架SCATrack, 以解决参考多目标跟踪任务中语言属性分组建模的难题. 为此, 设计了共享语义概念SSC与语义概念辅助生成SCG两个关键模块. SSC通过对语言表达进行属性划分, 使模型能够区分相同语义下的不同表述, 并识别不同语义间的相似表述, 从而实现更精确的视觉特征聚合. SCG采用特征屏蔽与生成机制, 引导模型从样本中学习多粒度的语言属性表征, 增强其对语言描述的鲁棒性与辨别能力. 大量实验验证了所提方法在提升参考多目标跟踪的持续性与鲁棒性方面的有效性. 尽管所提SCATrackRMOT任务中展现出具有竞争力的性能及对多语言表述的强适应能力, 但其仍受限于预定义类别标签框架, 存在对未定义组合的学习能力不足、未知类别理解受限、新场景适应性弱等缺陷, 导致无法有效处理现实场景中的未见物体或概念. 未来研究拟引入开放词汇场景理解范式, 构建零样本参考多目标跟踪方案, 突破预定义提示约束, 增强开放环境下对未知目标的持续跟踪能力.

 

作者简介

 

林家丞

2025年获得湖南大学博士学位. 主要研究方向为具身机器人的场景理解, 多模态融合认知. E-mail: jcheng_lin@hnu.edu.cn

 

陈嘉俊

湖南大学硕士研究生. 2022年获得广东工业大学学士学位. 主要研究方向为计算机视觉, 多目标跟踪. E-mail: chenjiajun@hnu.edu.cn

 

李智勇

湖南大学教授. 主要研究方向为智能感知与自主无人系统, 技能学习与人机融合系统, 机器学习与智能决策系统. 本文通信作者. E-mail: zhiyong.li@hnu.edu.cn

 

王耀南

中国工程院院士, 湖南大学人工智能与机器人学院教授. 1995年获得湖南大学博士学位. 主要研究方向为机器人学, 智能控制和图像处理. E-mail: yaonan@hnu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1518718.html

上一篇:基于大模型量化突发事件影响的工业能源价格预测研究
下一篇:《自动化学报》致谢2025年度审稿专家
收藏 IP: 222.131.246.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-5 04:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部