博文

文献计量分析中样本收集检索策略问题【译文】

已有 6486 次阅读 2012-11-30 11:22 |个人分类:文献计量学|系统分类:科研笔记| 文献计量, 样本, 检索策略

利用出版物和专利来研究纳米科学和纳米技术的发展，研究人员首先面临着的就是一个最基本的问题：哪些文献或者专利属于纳米技术？给一个新出现的交叉领域（如纳米技术）定义其边界并采集相关出版物和专利是相当地困难。而且，现有的各种定义之间存在着很大的分歧，使这个问题雪上加霜(Bawa 2007)。

从本文所搜集到的文献看，对纳米技术专利的检索基本上采用两种方法。第一种联合使用一组关键词来搜索数据库，和在出版物数据库中检索纳米技术出版物几乎一样。事实上，这种方法是最常用的检索方法，称为“词法检索”（lexical query）。第二种方法使用纳米专利的分类号，有USPTO (Class 977)，EPO(Y01 N class)和日本专利办公室JPO (ZNM class)。尽管使用专利分类号等预设好的检索系统来查找专利的方法比较受欢迎，由于分类最初不依赖于关键词定义，以及对分类体系的依赖，对我们下面的比较没有太大的意义，因此，我们集中探讨下面四种在文献库中查询纳米技术文章的方法，即：词法检索、改良的词法检索、引文分析和从核心期刊中收集出版物。

3.1 词法检索

Tolles (2001), Meyer等(2001)和Dunn及Whatmore (2002)在检索时用“nano*”作为基本检索字串。Glanzel等(2003) 和Noyons等(2003)都用纳米技术相关的关键词构建检索策略。Porter et al. (2008)构建了一个检索模块，将nano*和纳米技术相关关键词组合在一起。不相关的记录，如NaNO 3 , nanoliter和nanoplankton等与纳米不相关的关键词，都必须去掉。剔除通过从检索结果中“清洗”非相关的文献记录（如Porter等2008年所为），也包括在组合检索字串中嵌入布尔逻辑非“NOT”及想要去掉的词（如所为Glanzel等在2003，和Noyons等在2003所为）。一般要邀请纳米技术科学家参与选词和剔词的过程。

随着纳米技术领域的快速扩张，词法检索遇到了困难。Mogoutov and Kahane (2007)认为核心相关关键词的增长要比纳米文献库的增长还要快。早期如Braun等(1997)和Tolles (2001)等所作的文献计量学分析，通过nano作为前缀的关键词来搜集文献，或者简单地用“nano*”，结果漏掉了很多生物技术相关的论文，因为生物技术领域的关键词一般很少带有“nano”作为前缀。另一个问题就是词法检索请专家确定所采用的关键词集合，这也带有主观性。查询结果不可避免地偏向于所邀请专家比较了解的领域。

3.2 改良的词法检索

改良的词法检索与基本词法检索不同之处在于它通过自动和迭代方式获取查询关键词，减少专家干预。利用改良的词法检索方法，学者首先检索一组核心纳米技术文献。在Nanobank计划中，Zucker等(2007)从《Virtual Journal of Nanoscale Science & Technology》周刊里采集了核心纳米技术文献，包括了来自该领域不同文献源的最新研究论文。Mogoutov和Kahane (2007)等通过简单的nano前缀检索策略获取了核心文献。第二步，学者们从核心文献中获取一组关键词，并将其按与该领域的相关程度加以排序，基于关键词或者关键词组在核心文献中出现的频次。Zucker et al. (2007) 和Kostoff et al. (2006a, b)使用这些扩展的关键词集来搜集额外的文献并重复这一过程直到文献收敛于一个相对一致的关键词集合，即每次迭代之间只有很小的改变。Mogoutov和Kahane (2007)的做法与Zucker等(2007)和Kostoff等(2006a, b)的做法略有不同，他们没有采用多阶段迭代的做法，而是请专家确认和修正扩展关键词集合。

力求专家干预以及主观性达到最小化，是改良词法检索的显著优点，但是，在改良词法检索中对关键词的选择是基于关键词相关性的概率的，仍然由研究者来确定，还是需要专家来确认。

3.3 引文分析

为了检索纳米技术的文献，Zitt和Bassecoulard (2006)探索了一种词法-引文混合方法。第一步，他们使用Noyons等（2003年）用过的策略来检索一组“种子”纳米文献；第二步，确定一组被种子文献引用的“核心”文献；第三步，发现了一组引用核心文献的最终的纳米技术文献。他们控制核心文献和最终纳米技术文献的选择，利用微调阈值参数，达到出版物专指度和覆盖面的平衡。用信息科学的行话来说，他们控制住漏检相关文献（召回率问题）与误检不相关文献（检准率问题）之间的平衡。通过认真仔细地选择参数，Zitt和Bassecoulard获得了最终文献集合，包括178,000篇文献，56,000篇种子文献。种子文献按照所占百分比由高到低依次为材料科学、应用物理学、凝聚态物理学、和物理化学。在最终文献集合里，这四个领域的文献也是占主导地位，但是其比例排序是颠倒过来的。

与较为主观的词法检索不同，引文分析很少依赖于专家的干预，但是，主观性依然没有完全从过程中去掉，因为最终文献集合的大小仍然由研究者通过选择参数来确定，而最终文献集合会较大并且其覆盖主题更具有综合性，也会包含很多“噪音”。实施这种方法的还有一个难题，是数据库中的论文之间必须建立起引用链接。据Mogoutov和Kahane (2007)研究，全球能完全进入Web of Science并使用预设好的引用链接的单位不超过12个。尽管这本不过是个经费问题，但的确是资金短缺的社会科学研究的头等大事。

3.4 纳米技术核心期刊中的文献

Leydesdorff等与大多数通过词法检索或者引文分析的做法不同，他们使用期刊作为分析单位，从一组核心期刊中抽取文章。Zhou和Leydesdorff (2006)挑选出三种纳米技术期刊作为核心期刊，85种期刊作为该领域的相关期刊。根据“中间中心度”的概念（测量科学期刊学科交叉程度的指标），他们确认了10种纳米技术的核心期刊。

与使用词法检索和引文分析的方法相比，从数量有限的本领域专刊收集纳米技术文献是一个相对直接的做法。我们认为该方法的主要问题是这些核心期刊发表的论文只是覆盖了整个纳米科学和技术相关文献集合中的很小一部分。正如我们将在下面的内容中看到的，广泛应用的词法检索策略每一个都能检索到500多种发表纳米技术文献的期刊。通过词法检索到的文献总数是Leydesdorff和Zhou (2007)所提出的10种核心期刊中的文献数的5-10倍；而且，随着技术的涌现和发展，发表纳米技术相关论文的期刊组也在改变。基于十分有限数量的核心期刊进行分析其结果不会很（robust健壮皮实抗造，后面会有详细分析）。事实证明，描绘更为全面图画并精准地表现新领域的动态特征，需要更为全面的检索策略。

转载本文请联系原作者获取授权，同时请注明本文来自崔雷科学网博客。
链接地址：https://blog.sciencenet.cn/blog-82196-637740.html

上一篇：关于引用最开始的理解
下一篇：进入阵地

收藏 IP: 202.118.47.*| 热度|

当前推荐数：5 推荐人：刘宇 许海云 魏瑞斌 滕立 zguodong2006

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

崔雷

扫一扫，分享此博文

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

文献计量分析中样本收集检索策略问题【译文】

当前推荐数：5 推荐人：刘宇 许海云 魏瑞斌 滕立 zguodong2006

该博文允许注册用户评论请点击登录评论 (0 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

文献计量分析中样本收集检索策略问题【译文】

当前推荐数：5 推荐人： 刘宇 许海云 魏瑞斌 滕立 zguodong2006

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：5 推荐人：刘宇许海云魏瑞斌滕立 zguodong2006

该博文允许注册用户评论请点击登录评论 (0 个评论)