IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种基于视觉词典优化和查询扩展的图像检索方法

已有 623 次阅读 2024-3-13 12:52 |系统分类:博客资讯

引用本文

 

柯圣财, 李弼程, 陈刚, 赵永威, 魏晗. 一种基于视觉词典优化和查询扩展的图像检索方法. 自动化学报, 2018, 44(1): 99-105. doi: 10.16383/j.aas.2018.c160041

KE Sheng-Cai, LI Bi-Cheng, CHEN Gang, ZHAO Yong-Wei, WEI Han. Image Retrieval with Enhanced Visual Dictionary and Query Expansion. ACTA AUTOMATICA SINICA, 2018, 44(1): 99-105. doi: 10.16383/j.aas.2018.c160041

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160041

 

关键词

 

视觉词典模型,密度聚类,卡方模型,查询扩展 

 

摘要

 

视觉词典方法(Bag of visual wordsBoVW)是当前图像检索领域的主流方法,然而,传统的视觉词典方法存在计算量大、词典区分性不强以及抗干扰能力差等问题,难以适应大数据环境.针对这些问题,本文提出了一种基于视觉词典优化和查询扩展的图像检索方法.首先,利用基于密度的聚类方法对SIFT特征进行聚类生成视觉词典,提高视觉词典的生成效率和质量;然后,通过卡方模型分析视觉单词与图像目标的相关性,去除不包含目标信息的视觉单词,增强视觉词典的分辨能力;最后,采用基于图结构的查询扩展方法对初始检索结果进行重排序.Oxford5KParis6K图像集上的实验结果表明,新方法在一定程度上提高了视觉词典的质量和语义分辨能力,性能优于当前主流方法.

 

文章导读

 

随着大数据时代的到来, 互联网图像资源迅猛增长, 如何对大规模图像资源进行快速有效的检索以满足用户需求亟待解决.视觉词典方法(Bag of visual words, BoVW) [1-3]通过视觉词典将图像的局部特征量化为词频向量进行检索, 既能利用图像局部信息, 又能达到比局部特征直接检索更快的速度, 成为当前图像检索的主流方法.但是基于BoVW的图像检索方法存在以下问题: 1)当前生成视觉词典的聚类算法时间效率低、计算量大, 使得BoVW难以应用于大规模数据集; 2)由于聚类算法的局限性和图像背景噪声的存在, 使得视觉词典中存在不包含目标信息的视觉单词, 严重影响视觉词典质量; 3)没有充分利用初次检索结果中的有用信息, 使得检索效果不理想.

 

近年来, 研究人员针对这些问题做了许多探索性研究, 如在提高视觉词典生成效率方面: Philbin[4]KD-Tree引入K-means中提出近似K-Means (Approximate K-Means, AKM), 利用KD-Tree对聚类中心构建索引目录, 加速寻找最近聚类中心以提高聚类效率. Nister[5]提出了层次K-means (Hierarchical K-means, HKM), 将时间复杂度降为O(ndlogk), 但是该方法忽略了特征维数d对聚类效率的影响.为此, 研究者们提出基于降维的聚类方法, 如主成分分析(Principal component analysis, PCA) [6]、自组织特征映射(Self-organizing feature map, SOFM) [7], 主要思路是利用降维算法对高维特征数据进行降维, 再用聚类算法对降维后的特征点进行聚类.此外, 文献[8]通过构造混合概率分布函数来拟合数据集, 但是该方法需要待聚类数据的先验知识, 而且其聚类准确率依赖于密度函数的构造质量.

 

不包含目标信息的视觉单词类似于文本中的等停用词, 这里称其为视觉停用词”, 去除视觉停用词不仅能缩小词典规模, 还能提高检索准确率.针对视觉停用词去除问题, Sivic[9]认为视觉停用词与其出现的频率存在一定关系, 提出一种基于词频的去除方法. Yuan[10]通过统计视觉短语(即视觉单词组合)的出现概率滤除无用信息, Fulkerson[11]则利用信息瓶颈准则滤除一定数量的视觉单词, 但是, 上述方法仅在视觉单词层面考虑如何过滤视觉停用词”, 忽略了视觉单词与图像语义概念之间的相互关系.

 

为利用初次检索结果中的有用信息, 丰富原有查询的信息量, Perd′och[12]提出平均查询扩展策略(Average query expansion, AQE), 将初始检索结果的图像特征平均值作为新的查询实例, 结合二次检索结果对初次检索得到的图像进行重排序. Shen[13]对查询图像的近邻(K-nearest neighbors, KNN)进行多次检索, 对多次检索结果进行重排序得到最终检索结果. Chum[14]则利用查询图像和检索结果中的上下文语义信息提出了自动查询扩展方法, 有效提高了检索准确率.然而, 现有的查询扩展方法依赖于较高的初始准确率, 在初始准确率较低时, 初始检索结果中的不相关图像会带来负面影响.

 

综上所述, 为实现更加高效快速的图像检索, 本文提出一种基于视觉词典优化和查询扩展的图像检索方法.新方法较好地解决了传统方法生成的视觉词典质量差问题, 并有效增强了图像检索性能.本文剩余部分组织如下:1节给出了基于视觉词典优化和查询扩展的图像检索方法设计的关键技术, 其中详细介绍了基于密度聚类的视觉词典生成、视觉单词过滤以及基于图结构的查询扩展技术; 2节对本文方法进行了实验验证和性能分析; 最后, 3节为结论.

 1  基于视觉词典优化和查询扩展的图像检索方法流程

 2  基于图结构的查询扩展方法流程图

 4  视觉词典规模对图像检索MAP值的影响

 

本文提出了一种基于视觉词典优化和查询扩展的图像检索方法.首先, 针对传统视觉词典生成方法效率低问题, 引入基于密度的聚类方法生成视觉词典, 根据聚类中心具有的特性快速寻找适合的数据点作为聚类中心, 避免了迭代寻优过程, 有效提高了词典生成效率; 然后, 利用卡方模型分析视觉单词与图像目标的相关性, 同时结合视觉单词词频滤除不包含目标信息的视觉停用词”, 提高了视觉词典的质量; 最后, 通过连接图查找与查询图像相关的图像作为扩展项, 并对初始检索结果进行重排序, 降低了初始检索中不相关图像的影响, 提高了图像检索准确率.实验结果有效地验证了本文方法的图像检索性能优于当前主流方法.如何将目标空间信息与视觉单词相结合, 增强视觉单词的语义表达能力是本文的下一步研究方向.此外, 如何通过距离度量的学习使得特征空间的距离更加接近真实的语义距离也是今后亟待解决的问题.

 

作者简介

 

柯圣财

解放军信息工程大学信息系统工程学院硕士研究生.解放军75830部队助理工程师.主要研究方向为图像处理和计算机视觉.E-mail:keshengcai0705@163.com

 

陈刚  

解放军信息工程大学信息系统工程学院讲师.主要研究方向为自然语言处理, 图像/视频处理与识别.E-mail:maplechen111@gmail.com

 

赵永威  

解放军信息工程大学信息系统工程学院博士研究生.主要研究方向为图像/视频处理与识别.E-mail:zhaoyongwei369@163.com

 

魏晗  

解放军信息工程大学信息系统工程学院讲师.主要研究方向为计算机视觉, 图像/视频处理与识别.E-mail:weihan0627@126.com

 

李弼程  

华侨大学计算机科学与技术学院教授.主要研究方向为文本分析与理解, 语音处理与识别, 图像/视频处理与识别, 信息融合.本文通信作者.E-mail:lbclm@163.com



https://blog.sciencenet.cn/blog-3291369-1425164.html

上一篇:基于变换函数与填充函数的模糊粒子群优化算法
下一篇:基于多元优化算法的三维装箱问题的研究
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 18:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部