|||
论基于h指数的领域核心作者遴选方法之改进*
周春雷
(本文发表于 科技资源导刊,2009(1) )
摘要 “核心期刊高发文量和h指数相结合”是一种具有优势的评选高影响力作者的有效方法,但传统的h指数手工统计方法制约了该方法的应用。为此,提出一种适合程序处理的、基于领域专业期刊被引信息的h指数统计新方法,并以图书情报领域为例采用该方法进行了实证研究。最后通过与手工统计结果的对比证明了该方法的优越性。
关键词 h指数;图书情报领域;核心作者;实证研究
1 引言
“核心作者”虽然是文献计量学的专业术语,但其测量方法并没有统一的标准。我国图情界学者在核心作者评价方面进行过一系列研究,但对领域核心作者遴选方法并未达成共识。刘东维(1986)选择我国情报学界较有影响的7种学术期刊,根据各期刊自创刊至1985年底的发文篇数、被引证篇次数、平均被引率和基础文献发文数的综合评价指标,用定量化的方法确定了我国情报学研究领域的33位核心著者[1]。郦金花和苏新宁(2004)通过对中国社会科学引文索引(CSSCI)1998—2002年间的图书馆学情报学论文的统计分析,分别得出该领域发文最多以及被引最多的前32位作者[2]。方太强,周蓉,胡英(2005)根据发文篇数、被引证篇(次)数和重要文献发文数等因素为指标的综合评价体系,确定出我国图书情报学研究的78名核心作者 [3]。马费成、宋恩梅(2006)综合此前其它学者的核心著者评价研究成果,确定了37位情报学核心作者[4]。李彩云(2007)统计了《情报科学》1998-2005年间的核心作者,采用普赖斯公式N=0.749*sqrt(最高产作者的发文量)规定了核心作者候选人的最低发文数,并以第一作者发文量和被引量为指标进行加权计算,得出各候选人的综合指数,最后据此综合指数得出《情报科学》的核心作者[5]。
2 已有的核心作者遴选方法评价
从上述介绍不难看出,虽然这些学者所采用的基本思路都是试图通过综合利用发文和被引信息来确定图情领域的核心作者,但由于所取样本、时间段、评价指标等差异,所得到的核心作者名单各不相同。由于缺乏统一的遴选标准,领域核心作者遴选的可操作性及结果的客观性、可信性均难以保证。美国统计物理学家赫希(Jorge E .Hirsch)教授2005年提出了h指数,即一个人的h指数是指他至多有h篇论文分别被引用至少h次[6]。由于h指数能够综合反映作者的发文和被引信息,一经提出即在国际上引起很大反响,被普遍认为能够较好地评价优秀学者的终身成就。邱均平,缪雯婷(2007)[7]、张学梅 [8]等人对国内部分图书情报学者h指数的统计表明,那些在图情界有较高影响力的作者的h指数要明显高于普通作者。因此,笔者认为,基于h指数的评价可以较好地解决核心作者遴选问题,我们可以将某个h指数值作为领域核心作者的标准,不同领域、不同时期的评选标准可以不同。
笔者曾提出“核心期刊高发文量和h指数相结合”是一种具有优势的评选高影响力作者的有效方法,进行了规模较大的实证研究,并建议用h≥5来作为国内图情界高影响力作者的参考尺度。与传统的基于高发文量的核心作者评选方法相比,该方法能剔除那些虽发文多却不为同行所看重的作者;与传统的基于高被引的核心作者评选方法相比,该方法能剔除那些偶有被引很高佳作的低产作者;与单纯的h指数方法相比,该方法能筛选出主要研究领域非所研究者所关心领域的跨学科高影响力作者;与专家评审方法相比,本方法具有操作简单、客观、准确等优势,在评价效率和所花费的代价方面也具有较大的优势。[10]该方法作为一种能综合发文和被引信息的新的核心作者评选方法虽具有种种优势,却有依赖手工统计h指数这一劣势。在进行该项研究时,笔者虽耗时月余也不过精确统计了1241人的h指数。
用h指数来评选核心作者首先需要了解整个研究领域所有作者的h指数分布情况,然后才能根据分布情况确定合适的阈值,其中准确获取领域作者的h指数是其关键。但对传统h指数统计方法来说,快速、准确地测量大范围领域作者的h指数被普遍认为是枯燥、繁重且易错的工作,手工检索是其难以逾越的瓶颈。笔者曾指出“核心期刊高发文量和h指数相结合”的方法虽保证了高h指数作者统计的准确性,但尚无法揭示大量低h指数作者的分布情况,对低h指数作者分布情况的准确调查有待其它研究方法的出现[9]。总之,落后的研究手段已成为制约h指数研究发展的重大障碍。为此,本文提出一种新的h指数统计方法,然后采用该方法统计出国内图情领域各作者的h指数,最后根据h指数分布情况确定了该领域的核心作者。
3 一种新的基于领域期刊引文信息的h指数统计方法
3.1 传统h指数统计方法的不足
h指数被普遍认为能较好地评价各领域优秀学者的学术成就,赫希教授给它的定义是一个作者至多有h篇论文分别被引用了至少h次[6]。单个作者h指数的统计虽然简单,但快速、准确地测量某个研究领域全部作者h指数的方法却未见报道。现有的h指数统计流程一般为首先选择某个引文数据库,如Web of Science、Scopus、Google Scholar以及国内的CSSCI等,按照某个名单,然后手工逐一检索作者被引信息并按被引次数降序排列,最后统计出各作者的h指数。这种方法的弊端如下:
(1)无法区分不同领域同名作者的引文信息。各引文数据库均包含了不同领域研究者的信息,采用标准h指数统计方法得到的h指数往往因混杂了同名作者的引文信息而被夸大。
(2)抽样的代表性无法保证。传统的h指数统计一般依据某个名单由人工逐一进行,这个名单可能来自学者们统计出的领域核心作者,也可能来自期刊的编委列表等。这种统计方法仅是对整个研究领域的抽样,其代表性难以保证,普通研究者由于人数众多,更是难以出现在这些名单中。
(3)不适合大范围的快速统计。传统方法仅适合小范围的手工统计,是枯燥、繁重、易错的工作,不适合涉及成千上万作者的整个研究领域层次的大范围、快速、精确统计。
3.2基于领域期刊引文信息的h指数统计方法
为解决上述弊端,本文设想将统计范围限制在领域专业期刊。具体方法是首先选择某个引文数据库,接着用被引期刊名称进行检索并汇集全部领域期刊的引文信息,然后按照被引作者和被引次数排序,最后使用程序从中自动获得各作者的h指数。
表1示例了按作者姓名和被引次数降序排列的引文数据汇总表。通过使用自编程序分析“被引作者”和“被引次数”两列数据,自动得出各作者相应的h指数(如表2所示)。
表1 将全部专业期刊引文信息汇总按作者和被引次数排序的引文数据示例
被引作者 |
被引文献篇名 |
被引次数 |
被引期刊 |
被引文献发表时间 |
艾静 |
关于公共图书馆跨世纪发展的思考 |
4 |
图书馆理论与实践 |
2000(3) |
艾露 |
超文本在情报检索中的应用 |
2 |
图书馆学刊 |
1998(6) |
艾露 |
梁启超目录学思想与实践研究综述 |
1 |
国家图书馆学刊 |
1999(1) |
艾冰 |
图书馆自动化建设中的机读目录 |
1 |
晋图学刊 |
1998(3) |
表2 作者h指数计算表
被引作者 |
被引次数降序列表 |
h指数 |
艾静 |
4 |
1 |
艾露 |
2 |
1 |
1 |
||
艾冰 |
1 |
1 |
这种方法的关键在于领域专业期刊的选取,由于各领域都有公认的专业期刊,而且这些期刊名单可以从重要学术数据库的分学科期刊列表获得,所以这个问题不是本方法应用的障碍。根据文献计量学常识可知,任何研究领域都有该领域公认的“专业期刊”,绝大多数与该领域有关的文献都发表在这些专业期刊上。因此,笔者认为,通过将某领域全部专业期刊的被引信息汇总,可以得到涵盖该领域绝大多数研究者成果的数据,通过对这些数据的分析可以得到比较准确的该领域全部作者的h指数。这一假设将在下文的实证研究中得到证实。此外,由于引文数据库主要是基于核心期刊所载论文所附的参考文献建立起来的,而发表于非核心期刊的论文也可能为核心期刊上的论文所引用,仅采用来自核心期刊的引文信息是否能较好地反映作者的h指数也是本文关心的问题。因篇幅所限,有关该方法的详细论述笔者将另文介绍。
3.3 本文所介绍h指数统计方法的优点
(1)减少同名作者引文信息混杂现象。由于现有引文数据库均未妥善解决作者唯一标识问题,来自不同领域的同名者其被引信息往往混杂在一起,导致作者h指数被夸大。本文所提方法将被引文献限制在领域专业期刊,虽然依然无法区分同一研究领域中的同名者,但剔除其它领域的同名者能大大降低同名者出现的概率,这有利于提高作者h指数统计的准确性。
(2)大大提高统计效率。与某领域的研究者数量相比,该领域的期刊数量相对要少得多。因此,与以作者为单位进行统计的方法相比,采用本文方法所需的查询次数将大大减少。以图情领域为例,根据笔者的统计,近30年来核心期刊第一作者人数为30274,仅发文量在5及以上的第一作者即高达3911人;而图情领域共有期刊73种,南京大学版核心期刊20种。对这三万多作者逐一进行检索显然不如以期刊为单位进行检索经济。通过使用笔者自编程序对期刊被引信息进行分析,统计效率可以大大提高。
(3)减少遗漏,提高统计准确性。本文所介绍方法不仅可以准确统计出大量在手工统计中被忽略的普通作者的h指数,而且能较好地涵盖本领域的重要研究者。
3.4 本文所介绍h指数统计方法的不足
本文所介绍方法的准确性在很大程度上依赖于领域数据的完备程度。由于统计范围限于领域专业期刊,这可能会遗漏那些发表在非本领域专业期刊上的成果和以专著等形式发表的成果,从而导致作者h指数的降低。
4 国内图情领域核心作者实证研究
4.1 研究方法
笔者拟采用本文所介绍方法对国内图情领域进行实证研究,研究思路是从CSSCI分别获取73种国内图情专业期刊的被引信息,汇总后按被引篇名和被引作者进行排序并将被引次数合并,从而得到该领域所有研究者所发表专业文章的被引信息,然后分别以被引作者和被引次数为第一、第二排序依据进行降序排列,最后采用笔者自编软件统计出该领域所有作者的h指数。为验证前文提及的核心期刊引文对作者h指数研究的代表性,笔者还抽取了南京大学版20种图情核心期刊的信息进行了对照研究。笔者曾通过多种途径广泛搜集了人数多达数千人的图情领域知名学者名单,利用CSSCI逐一统计了其h指数,其中精确统计了1241人[9],其结果被用于检验本文所提方法统计h指数的准确性。本文的检索时间是2008年3月,受CSSCI引文数据库的限制,检索时间跨度为1998-2006。
4.2 研究结果
经过实证研究,国内图情领域作者h指数与相应人数分布情况如图1所示,从图1可以看出,随着h指数的升高,相应的作者人数锐减。换言之,高h指数作者人数占总作者比例很小。h≥5的作者共有102人,在全部作者15790中所占比例仅为0.646%。根据笔者的研究,图情领域绝大多数h≥5的作者都具有高级职称,在业内的知名度较高。考虑到有的作者的虽然发表了论文,但并没有被引用的情况,全部作者实际人数应该大于15790,按照笔者对图情领域30年来20种核心期刊所发文章第一作者的统计,本领域的作者至少有30274人[9]。则h≥5的作者所占的比例将进一步降低到0.337%。因此,笔者认为,根据CSSCI在1998-2006年间的引文数据,可以把图情领域核心作者的h指数门槛设为5。当然,这一门槛不是绝对的,研究者可以根据不同研究领域、不同时期的实际情况进行调整。
表3为部分图情领域高h指数作者名单,为节约篇幅,仅列出h≥7的作者。其中对照数据的“手工统计”是指笔者在文献[9]中统计出的作者h指数;“全部”是指基于全部73种图情期刊统计出的作者h指数;“核心”是指基于20种南京大学版图情核心期刊统计出的作者h指数;“手工-全部”是指手工统计结果与基于全部期刊结果的差值,其它类推。从表3可以发现,基于核心期刊的h指数与基于全部期刊统计的相差不大,但与手工统计的数值有较大偏差。