||
3、高频项目截取阈值问题
高频(高被引)条目的截取应当是共现聚类分析各个步骤中最尖锐的问题,至今没有见到明确的答案,但是书目信息共现聚类分析有无法回避这个问题。这是因为实际操作中不可能对抽取出某个字段(如主题词或者作者)的所有条目生成共现矩阵:一来,低频的条目与其他同类条目共现次数少,形成共现矩阵会稀疏;二来,如果包括大量的低频条目会对聚类结果的分析造成困难,大多数的低频条目因其代表性较低而不应当出现在最终结果中。
自洛特卡开展了有关作者发表论文频次规律的研究(1929年)以来【The frequency distribution of scientific productivity. Journal of the Washington Academy of Sciences, 1926,16: 317-323.】,文献计量学分析研究一直遵循着一种将被分析项目按照出现频次由高到低排序的途径,如文献计量学的三大定律以及引文分析中的加菲尔德的引文集中分散定律。这些定律最后都指向二八定律或者马太效应,即少量的条目占据了大多数的频次,因此很多研究自然采取了利用有代表性的少量条目(如高产作者、核心期刊、高频词以及高被引论文等)来代表所研究的整体的思路。基于这种等级排列统计数据的技术,对高频条目的阈值的选取方法目前存在着:(1)按照序号,即截取排序表中的前N个条目;(2)按照百分比,即截取排序表中累计百分比达到N%的条目;(3)按照评分,采取加权等。
国内外书目共现聚类研究中,多数在阈值选取的环节上采取语焉不详或者蒙混过关的策略。比如直接采用经典的布拉德福定律的原理将分析条目按照频次从高到低排列后,分成三等分,选取最高的三分之一部分所对应的主题词、引文或者作者作为高频条目,原理上似有相似之处,但是实际共现分析研究中分析条目的频次分布与相关论文在期刊中的分布有时相去甚远。也有直接借鉴齐普夫的词频分布公式,尤其是Donohue JC在1973提出的高频词低频词的分界的公式【】。但是应当注意到作为齐普夫定律的深入研究,这里分析的词频是一篇文章内词频分布的规律,这与某一个文献集合中关键词的词频分布可能有所不同,是否可以类推目前未见系统的研究。也有学者利用近年来比较火的h指数作为确定高被引或者高频词的算法【】,但是应当牢记的是无论对h指数的应用做多么广泛的拓展,其初衷是确定某一作者的经典引文,用于比较评价不同学者的学术成就或者影响力的【Rousseau (2006)】,这与确定一个学科领域核心概念稍有不同。
对于分析和表现某一学科、专业和领域的研究状况(热点)这一的任务来说,阈值问题的核心是既要有足够多的项目(主题词)表示该领域的主要内容,同时又要去掉噪音、方便后期聚类结果的解读进而得出研究热点。因此,截取高频条目的基本原则应该是用较少的高频条目全面地表示研究领域的进展状态。高频主题词、高被引期刊或论文的确定应当考虑到学科的范围(文献集合的大小),和学科领域的发展程度(领域或者主题的集中离散程度),在目前没有确切答案之前(也许根本没有答案)只能灵活取值。在实际研究中,根据经验我们一般采取的是30-40个左右的高频主题词或者高被引论文,一般不宜超过100条,这样既可以构成可以把控的4-5个大类,同时每一个类别也有3-4个主题词或者被引文献,能够比较丰富地显示出研究领域中的重点情况。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 12:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社