mdzhao的个人博客分享 http://blog.sciencenet.cn/u/mdzhao

博文

从认识“字段”、“关键词”、“主题”开始 精选

已有 14868 次阅读 2013-6-6 11:16 |个人分类:文献检索|系统分类:科普集锦| 主题, 关键词

         俺的第一篇检索技能科普的博文“你经常用“高级检索”吗? ”反应还不错,这对我是个巨大的鼓励,也有信心再继续科普一下。不过这个科普其实没什么技术含量,主要提供一些基本的检索技能和概念,目的是在不增加难度和复杂度的情况下让检索更有效率,所以尽量少讲专业术语。

      有博主希望能讲讲提取关键词的技巧,也有博主希望能提供一些图示。俺只能尽可能试试,但关键词如何提取涉及检索目的,不同目标的检索对关键词的选用甚至字段的选用都是不同的,所以这里先理清一下数据库检索中一定会遇到的“字段”、“关键词”和“主题”这些概念。说实在的,因为搜索引擎的傻瓜式检索,许多人检索的时候不太关注这些概念,想要什么便往检索框里输入什么。这在数据库检索的时候实际上是浪费了它本来可以让你更准确获得结果的那些功能了

     字段通俗的讲是规定了你输入的检索词是什么性质的,数据库便只在相应字段做检索从而排除其他字段也有同样检索词的结果出现。比如用一个检索词“浙江”在题名字段检索,检索的结果便全部是标题包含“浙江”的文献,如果选择“主题”字段,通常这包含了题名、关键词、摘要等多个字段,所以检出的文献会比限制在题名字段的多得多,但不相关的文献也多,一些文献可能仅在摘要中提到了浙江。如果选择“全部”字段,则会把刊名、作者单位、地址等字段包含“浙江”的所有文献也都检出,可说大部分文献都不相关了。

       数据库中最常见的字段有题名(Title)、作者(Author)、主题(Subject)、摘要(abstrac)、关键词(Keywords)、来源(Source)等,而某些检索专门文献类型的数据库还会有此类文献特有的一些字段,如专利文献的专利号;标准文献的标准号;学位论文的导师、学位授予学校;会议文献的会议名称、主办单位等。一些数据库在简单检索界面不显示字段,一般这种情况默认的往往是范围最大的“所有字段”或“全文检索”,如果你关注字段的话可以发现标注了字段的数据库默认的检索字段大多为“全部”或“主题”。许多用户不关注字段,有些时候便闹出笑话。一次信息检索的作业要求学生查他自己导师的论文和成果,一学生的作业中仅有导师的外文文献,于是告诉他没查中文文献,只有一半成绩,该学生急了,说他查了,查了某数据库,但他导师一篇中文文献也没有!我感觉不可能,他导师再牛好像也不可能全部发表外文论文而完全没有中文的论文啊。俺自己查了下,他导师的中文文献好几十篇呢。他不信,说是又查了,还是没查到,难道数据库专门欺负他?于是到我这里来要演示给我看,我一看,数据库默认的检索字段是主题,他输入作者当然是无结果了!

        上图是找了一些数据库表示字段的下拉菜单或表单式字段的汇集,上左是Engineering  Village的字段,上中是Elsevier ScienceDirect的字段,上右是Web of Science的字段,下面分别为万方学位论文字段、知网会议文献字段和CSSCI的表单式字段。

       在所有字段中一般用户最容易搞不清楚的可能就是“关键词”和“主题”了。当然大多数人认为没必要知道它们是否有区别,但如果搞清楚了,在数据库检索的时候其实会更有目标性。而更重要的意义在于,我们可以通过标注的关键词或主题帮助我们检索相关文献而把不相关的文献排除。

      当我们要从文献内容的角度进行检索的时候,主要涉及的字段有题名、关键词、主题、摘要。看上图所示3个外文数据库,Engineering  Village有一个字段为“Subject/ Title/Abstrac”,Elsevier  ScienceDirect的一个类似字段却标为“Abstrac/ Title/ Keywords”,而Web of Science因为用了它的中文界面,其中的“主题”字段,英文标为“Subject”,所指基本一样,选择该字段便是表示检索与内容相关的所有字段。那为什么有些要标Subject,有些要标Keywords呢?一般情况下关键词指的是非规范化的自然语言,标注的时候不用查专门的主题词表。但一些工具型数据库是有专门主题词表并对每条数据要进行标注的,如Engineering  Village、Inspec 等。那是用规范化语言,一般要求一词一意,不能一词多意,也不能多词一意。但数据库用Subject表示的字段往往囊括了多个字段,而如果用“Keywords”表示大多仅指关键词一个字段。

      我们举一个例子看看同一篇文章不同的标注情况吧。题名:Safe composition levels of transgenic crops assessed via a clinical medicine model,该文被EI和SCI都收录了。但标注却不一样。

      EI Controlled terms(受控词):  Crops  -  Equivalence classes  -  Medicine

      EI Uncontrolled terms(非受控词):  Clinical medicine  -  Commercial crops  -  Compositional data  -  Distribution-free  -  Generic drugs  -  Heterogeneous populations  -  Life-sciences  -  Safety assessment  -  Safety assessments  -  Safety evaluations  -  Tolerance interval  -  Transgenic crops  

     SCI Author Keywords(作者关键词): Safety assessment; Statistics; Substantial equivalence; Transgenic crops
   
SCI Keywords Plus(关键词扩展): Zea-Mays L.; Glyphosate-Tolerant Corn; Glycine-Max L.; Maize Grain; Substantial Equivalence; Conventional Soybeans; Chemical-Composition; Sativa L.; Fed Diets; Forage
       

       可见同一篇文献在不同的数据库所标的关键词有很大差别,这取决于数据库本身的取词原则,而且不同数据库取词的关注重点也是不同的。我们单独看一篇文献的时候这些关键词如何标似乎意义不大,但如果需要找一批相关文献的时候,也许这些关键词便会给你一个找到最合适检索词的思路和方向。而检索一个数据库的时候,首先便要确定究竟要在什么字段检索而不是用数据库给出的默认字段。



https://blog.sciencenet.cn/blog-69474-695115.html

上一篇:向喜欢的歌手致敬
下一篇:那些年,我们一起看过的手抄本
收藏 IP: 183.157.160.*| 热度|

26 许培扬 张全成 曹聪 张忆文 徐大彬 张珂良 张玉秀 王刚 康维钧 张志东 李汝资 李天成 武夷山 朱云云 王启云 曾新林 徐晓 张文增 赵星 翟自洋 郭保华 杨正瓴 冮昊 wuzhenyuhn guoyanghuawu dulizhi95

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 03:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部