许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

信息检索策略

已有 12137 次阅读 2010-11-29 08:04 |个人分类:信息检索|系统分类:论文交流| 文献检索, 信息检索, 检索策略

(四)信息检索策略
       信息检索策略是指为实现检索目标制定的全盘计划和方案,是在分析检索信息需求的基础上,选择适当的数据库并确定检索途径和检索词,确定各词之间的逻辑关系与检索步骤的一种计划或思路,以制定出检索表达式并在检索过程中修改和完善检索表达式。高效的信息检索过程应以一份完善的信息检索策略为基础,好的检索策略能使检索过程达到最优化。
图1-2-3 检索策略构建流程
1. 检索策略的构建
        检索策略的构建流程如图1-2-3所示。
 (1)理解检索课题,确定检索目标
检索课题的分析与理解是把握检索目标、正确选择检索工具、确定检索词、构造检索表达式的先决条件,也是使检索策略的质量和效果达到最优化的基础。通过理解检索课题,应做到以下几点:
①分析课题的主要内容和所涉及的学科范围,以选择适合的检索工具。如,若检索课题只涉及某个专业领域的内容,那么首选与该专业领域相一致的数据库;若检索课题涉及的内容全面而广泛,则最好选择综合性的数据库,或同时选择几个不同的数据库。
②明确所需文献的类型、语种、年代范围、著者及机构等外部特征,以便确定合适的检索途径或进行相应的检索限定。
③明确检索目标,选择查准或查全的侧重点。同时保证查全率与查准率是比较困难的,须根据课题需要,在查全和查准上做出侧重。如要解决研究中的具体问题,希望有一定范围的文献量,但不希望有误查,则要强调一个“准”字;如要了解全过程、写综述、做鉴定等,希望获得所有的相关文章,则要强调一个“全”字。
(2)选择合适的检索工具
在充分理解检索需求之后,需要根据课题特征选取合适的检索工具。不同检索系统或数据库所覆盖的学科领域、资源类型、数量规模等不尽相同。正确选择数据库,是保证检索质量的基础。所以应在检索之前阅读有关数据库的使用介绍,从以下几个方面进行考虑:
①按照课题的检索要求和目的,选择所需数据库的类型。如,需要统计数据,应检索数值型数据库;需要某一疾病的诊断标准,应检索指南类数据库;只需要摘要信息,可检索文摘型数据库;而需要原文者,检索全文型数据库。
②选择收录的学科范围、年代跨度符合要求的数据库。
③选择所需文献的类型,如期刊论文、专利、会议文献、科技报告等,一些数据库收录的文献类型侧重不同。
④当需要查找最新文献信息时,选择数据更新周期短的数据库。
⑤当需要获取原文时,选择原文获取较容易的数据库,一些文摘型数据库提供全文链接功能。
⑥当几个数据库内容交叉、重复率较高时,要弄清数据库的标引特征、检索方法与特点等,选择比较熟悉的数据库。
⑦还要注意数据库的收费标准和收费方式。
(3)分析主题概念,确定检索用词
检索词是表达文献信息需求的基本元素,也是计算机检索系统中进行匹配的基本单元。检索词选择正确与否,直接影响着检索效果。在全面理解分析检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,确定检索用词。检索词的选择,一般有以下几种途径:
①首选主题词。主题词是规范化的受控词汇,它取自于主题词表。同一主题的文献,不受文献中使用何种名称、不同词形、拼写、单复数等的限制,都会被标引到同一个规范的主题词下,主题词检索能提高文献的查准率和查全率。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效果。
②选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码,化学文摘数据库中的化学物质登记号等。
③选用自由词。自由词是非受控的自然语词,符合人类的自然语言习惯。使用自由词检索能够利用检索工具的篇名、文摘甚至全文查找的功能。尤其是当数据库没有专用的主题词表或词表中没有可选的词时,有必要利用自由词进行辅助性检索。
④选用同义词与相关词。在某些情况下,同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率,避免漏检。
(4)选择检索途径,构建检索表达式
分析检索课题,选择合适的检索途径,即主题词途径、自由词途径、作者途径、期刊名途径、分类途径等,制定相应的检索表达式。检索表达式是计算机信息检索中用来表达用户检索需求的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。检索表达式构建是否合理,将直接影响着查全率和查准率。
检索式在检索中可一次完成,也可分多步完成。例如,在CBM系统中查找“杨辉在2000年后发表的有关社区卫生服务”的文献,可以自由词检索状态下构建检索表达式“社区卫生服务 and PY>=2000 and 作者=杨辉”,一次完成检索;同样,也可以分别在基本检索、著者检索等状态下,分别完成“社区卫生服务”、“PY>=2000”和“作者=杨辉”的检索,然后将三个分步检索式用逻辑与AND组合起来,完成最终检索,得到的检索结果与一步检索表达式是相同的。
2. 检索策略的评价
       检索策略在信息获取的过程中起着至关重要的作用。衡量检索策略质量的好坏有两个重要的指标:查全率和查准率。查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来;查准率是指系统在进行某一检索时,检出的相关文献量与检出的文献总量的比率,它反映该系统排除不相关文献的能力。
查全率与查准率是两个近乎矛盾的指标。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。查全率和查准率难以同时提高。为了保证检索结果,应根据具体要求,合理地调节查全率和查准率。
3. 检索策略的优化
        在经过反复思考制定出的检索策略输入检索系统后,检出的结果不一定能够满足课题的检索要求,可能输出的篇数过多,而且不相关的文献所占比例较大,也可能输出的文献数量过少,有时甚至为零。这就需要检索人员分析漏检与误检的原因,在排除一些不可控制的条件外,不断地调整检索策略,以达到更好的检索效果。
(1)检索策略的影响因素
影响检索结果的因素有很多种,可能是信息检索人员制定的检索策略不够合适,也可能是数据库信息加工人员的原因等。
①影响查准率的因素
从信息检索方面来看,检索时所用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中使用逻辑“或”不当;截词部位不当;检索限定条件偏少等。
从数据库自身的信息加工来看,索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;主题词与副主题词组配错误等。
②影响查全率的因素
从信息检索方面来看,隐含概念挖掘不够,不能全面地描述检索要求;选词不当或选词覆盖面不全;检索途径和方法太少;检索策略过于简单;逻辑组配检索不当;检索限定条件过多等。
从数据库自身的信息收集和加工来看,数据库收录文献不全;索引词汇缺乏控制和专指性;词表结构及功能不完善;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员用词不当或遗漏了原文的重要概念等。
(2)缩小检索范围,提高查准率
如果某项检索需要尽可能准确地检索到相关信息,即较高的查准率,或初步检索得到的结果太多,需要缩小检索范围时,可从以下几方面调整检索式:
①提高检索词的专指度,增加或换用下位词和专指性较强的自由词、主题词;或采用较专指的副主题词进行组配限定检索。
②增加概念词,并用AND运算符连接一些能够进一步限定主题概念的相关检索项,用逻辑非NOT来排除一些无关的检索项。
③减少同义词、近义词和同族相关词。
④使用字段限定检索,将检索词限定在如题名、关键词等字段中进行检索。
⑤使用限定字符,通过对关键词间的位置、年代、文献类型、学科、语种等的限定有效地缩小查询范围,使检索结果更接近需求。
⑥采用加权检索:在文献加工的时候,信息标引人员给每个检索词一个数值表示其重要性程度,称为权值。加权检索仅能检索出权值较高的文献,提高了文献的查准率,但往往会造成漏检。
(3)扩大检索范围,提高查全率
如果某项检索需要尽可能全面地检索到相关信息,即较高的查全率,或初步检索得到的结果为零或数量太少时,需要扩大检索范围,可从以下几方面来调整检索式:
①自由词检索:增加选取检索词的同义词、近义词及相关词,并利用逻辑运算符OR 将其与前者联系起来;采用截词算符,减少以不同写法所表达的检索词,同族相关词;减少检索表达式中的AND运算,逐渐减少一些不太重要的概念词的限定。
②主题词检索:降低主题词的专指度,从词表或检出文献中选择一些上位词或相关词;利用检索系统的扩展检索功能(主题词扩展、副主题扩展),将该主题词(或副主题词)及其下位的主题词(或副主题词)全部检索出来,以扩大检索范围;减少副主题词的限定,或采用副主题词的上位副主题词进行限定,如“药物治疗”转为“治疗”。
③减少限定:若在检索当中采用了字段限定、年代范围限定、位置算符限定等,可取消限定,或放宽限定的范围。
④巧用分类检索,将某一主题及其下位分类主题的文献全部检索出来,实现族性检索,有效降低漏检率。
⑤针对同一个检索提问选用多种检索工具,访问多个数据库,以弥补单一检索工具和单个数据库在覆盖面、容量和规模上的限制从而达到扩大检索范围的目的。

摘自《医学信息检索与利用》
主 编 代 涛
副主编 许培扬 阮学平
编 者 (按姓氏汉语拼音字母顺序排列)
       阿丽塔 安新颖 代 涛 方 安 葛红梅 
      侯 丽 黄利辉 李军莲 李 越 刘晓婷 
       倪素云 钱 庆 任慧玲 阮学平 孙海霞 
       唐小利 王 敏 许培扬 张 玢 张燕舞 
       周 琴  
秘 书 张 玢  

 

 



https://blog.sciencenet.cn/blog-280034-388452.html

上一篇:信息与知识、文献的关系
下一篇:医学信息的特征及作用
收藏 IP: .*| 热度|

1 唐小卿

发表评论 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 17:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部