|||
Google、百度、搜狗相继推出了识图搜索服务,能够以图片找图片,终于比基于文字的图片检索前进了一大步。以前一直认为在信息检索领域基于内容的图片检索大多数只停留在表面,直到这样的应用大量出现后才真正开始关注起基于内容的图片检索(CBR)。找了一些文章后发现,CBR在十年前已经研究得很丰富了,相关的理论框架也比较完善。原来工业界总是会落后于学术界,科研还是工业技术的排头兵啊。大致总结一下吧,也加深自己对这方面的认识。主要内容参考了《图像检索技术综述》一文。
图像检索前的几个核心问题:(1)图像数据是非结构化的,为了建立颜色、形状、纹理等视觉内容的索引,需要构造相应的数据模型;(2)图像的内容往往受到主观因素的影响,与人的经验、知识、心理都有关系,如何准确全面地描述图片内容(MPEG-7标准是MPEG专家组制定的一个多媒体内容描述方案);(3)如何做到从图像物理内容到信息内容的映射。根据建立索引的方式和索引的内容不同,可以把图像索引分为3类:基于注释的索引、基于特征的索引和基于知识的索引。
A)基于注释的图像检索。图像注释就是描述图像内容的文本信息,分为语句注释和关键字注释。这种模式出现较高,尤其是在关系数据库出现后,是一种主要的模式。这一阶段的数据模型主要是元数据模型,例如DC、RDF。这种方式简单,实现起来比较容易,但是多采用手工完成,局限是⑴注释图像的工作量太大;⑵由于人的认知主观性,造成了注释结果的模糊性,尤其是海量数据的出现,这一方式可行性受到一定的影响。
B)基于特征的图像检索。图像中包含信息内容和视觉内容等内容,可用于特征索引的视觉内容包括颜色、形状、纹理等。(1)基于颜色特征的检索,采用的主要方法是颜色直方图,具体有直方图相交法、累计直方图等;(2)基于纹理特征的检索,纹理对图像灰度变化的特征进行量化,与对象的位置、走向、大小、形状有关,与平均灰度级无关,纹理分为随机纹理和模式纹理。随机纹理用统计性质表征,如灰度级的标准偏差或自相关宽度;而模式纹理可通过抽取某些度量进行进一步表征。主要方法有共生矩阵、小波变换(这种似乎在工业界用得多);(3)基于形状特征的检索。形状的表示方法有两类:基于边界的表示和基于区域的表示.这两种表示方法的典型代表分别是傅里叶描述子和不变矩。这个过程中很重要的过程是图像分割。
C)基于知识的图像检索。建立视觉内容和信息内容之间的映射,这个过程称为图像解释或图像理解。人类在理解世界时用到很多经验和知识,因此在图像解释中也可以借用知识提高解释的可靠性和效率,对知识的利用是通过建立领域知识的逻辑模型实现的。在图像检索过程中用到的知识可以分为两类:事实性知识和规则性知识。事实性知识是描述性的,如描述图像语义的关键字;利用知识检索图像的方法是建立一个规则库或知识库。而对图像知识进行形式化表示的常用方法包括语义网络、谓词逻辑、框架等。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-10 03:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社