|||
发文量和h指数结合的高影响力作者评选方法研究
——以图书情报学为例的实证分析*
邱均平 周春雷
(本文发表于 图书馆论坛,2008(6) )
??[摘 要] 高影响力作者是学科创新和发展的骨干力量,其评选方法一直是学术界和管理部门关注的重点课题之一。通过对图书情报学领域的实证研究提出“核心期刊高发文量和h指数相结合”是一种具有优势的评选高影响力作者的有效方法。
??[关键词] h指数;图书情报学领域;高产作者;高影响力作者;实证研究
1 引言
文献计量领域往往以发文量的多少来评价作者的学术成就,但单纯的发文量指标显然并不能完全反映文章的质量及其对学科领域的影响力。人们一般认为文献被引数量与作者的影响力呈正相关关系,被引量越大说明文章作者的影响力越大。加利福尼亚大学圣地亚哥分校统计物理学家赫希(Jorge E .Hirsch)教授于2005年发明的h指数提供了使用论文被引信息的新方法。这是一种利用论文被引情况来进行学术成就评价的新方法,其核心思想是一个作者的h指数是指他至多有h篇论文分别被引用了至少h次[1]。该方法一提出即在国际上引起很大反响,被普遍认为可以在一定程度上弥补传统文献计量指标在作者成就评价上的缺陷。国内已有文献[2][3]利用h指数对国内图书情报学界进行了初步的评价研究,他们采用统计知名作者h指数的办法来推测领域内作者h指数的实际分布情况,但这类根据小样本采用不完全归纳方法所得结果的代表性显然有待检验。此外,也有其他学者采用ACA等传统文献计量方法对图情领域的核心作者进行了筛选[4][5][6]。据笔者对南京大学版20种图情领域核心期刊的统计,近三十年来图情领域第一作者人数为30274,仅发文量在5篇及以上的第一作者人数即达3911人。此前的各种研究方法未曾覆盖如此众多的候选人,因此,已有文献所统计出的图情领域有影响力作者的代表性有待检验。由于发文量和发文期刊级别代表了作者的学术产出水平,而被引数据可以在很大程度上反映同行对其成就的认可程度,故笔者认为基于某学科领域核心期刊的发文量和h指数相结合的方法也许能更好地筛选出高影响力的领域专家。本文试图以图情领域近三十年来在图情类核心刊物上发文5篇及以上的第一作者为样本,采用h指数研究方法对国内图书情报学界进行全面系统的实证研究,以筛选出该领域影响力较大的作者。
2 本文的研究方法
2.1 研究思路
本文根据核心期刊发文量统计出高产作者名单,结合其它文献或专业网站提及的业内高影响力作者名单作为统计图书情报领域高影响力作者的候选名单,利用CSSCI(Chinese Social Sciences Citation Index,中文社会科学引文索引)的引文数据库对该名单进行逐一统计,最终得到比较全面的图情领域高影响力学者h指数分布表。成为高h指数作者的基本前提是高发文量,而高被引作者必然是受到广泛关注的,那些在本领域核心期刊发文很多的作者无疑更有可能成为高h指数作者。笔者设想通过对图情领域核心期刊的高产作者的逐一统计可以很好地保证遴选出发文量高且高被引的作者。由于CSSCI计算的引文数是针对第一作者的,所以基于CSSCI统计出的高h指数作者必然是以第一作者身份发文数量多的高产作者,故本研究在使用通过CNKI(China National Knowledge Infrastructure,中国知识基础设施工程)获取到的数据统计高产作者时限定于第一作者。
由于近三十年来图情领域第一作者人数为30274,仅发文量在5篇及以上的第一作者即高达3911人。对这三万多作者逐一进行测量显然是不现实的,故本文的研究思路是首先通过小范围测试获得图情领域高h指数作者的概貌信息,然后进行大范围测试,以达到求全的目的。首先以已有文献[2][3][4][5][6]提供的核心作者名单为初始样本进行统计,通过近两百人的小范围测试,发现h指数为5可能是一个门槛,高于此数的不多,所以在从期刊获取高产作者名单的时候限定以第一作者发文的数量至少为5。笔者还发现CSSCI检索结果总被引数在30篇次以下的,其h指数极少超过3。为保险起见,在实际操作中将基本忽略的阈值限制在20以下。通过这些办法大大提高了研究效率,使本研究在操作上的可行性得到了保证。换言之,本研究通过舍弃大量h指数为1和2的低h指数数据,把主要精力集中在对可能性更大的潜在高h指数作者的准确测量上,从而较好地保证了本研究的效率和结果的可靠性。
笔者在具体操作中是以期刊为单位逐一进行测量的。首先从CNKI抽取该期刊所有作者信息,从中提取出第一作者发文量不小于5的名单(对于权威期刊(如《中国图书馆学报》和《情报学报》)是按3来统计的,以统计更多的人数),然后用自编软件筛选出不在初始样本中的高产作者名单,接着对新获得的名单逐个进行统计并形成一份包含所有已统计作者的名单,这个名单将用于匹配从下一个期刊获得的高产作者名单。
通过这样滚雪球式操作,已统计过h指数的作者名单不断拉长。在统计完南京大学版图情领域二十种核心期刊后,得到了一份较全面的图情领域高h指数作者名单。
由于不在单一核心期刊上发文5篇及以上的作者也可能在全部核心期刊上累计发文达到5及以上,所以笔者又将全部第一作者的信息进行汇总,得到完整的高产作者名单和发文数量。然后笔者又将这份名单与已统计过h指数的作者名单进行匹配,筛选出总发文量不小于5的新的待统计名单并进行逐个统计。最后得到了较完整的基于图情领域核心期刊的高h指数作者名单。
整个操作流程如下:
(1)汇总其它文献和网站提供的名单——利用CSSCI和自编软件重新统计——得到名单A
(2)利用自编软件CnkiRef[7]从CNKI套取出高产作者名单B:套取指定期刊的题录信息——提取第一作者——统计作者发文频率——按设定的阈值截得高产作者名单B
(3)使用自编软件比较A和B,得到需要统计的作者名单B-A
(4)利用CSSCI和自编软件对名单B-A进行统计,整理得到目前已统计过的全部作者名单B
(5)重复步骤(2)——(4),逐步完善目前最全面的名单C。
(6)汇总全部第一作者频率数据,按设定的阈值截得高产作者名单D,与C比较并统计D中未被统计的,得到最终的名单E。
2.2 高产作者或高影响力作者名单来源
(1)已有文献统计出的名单。首先借助已有文献总结的图情界有影响力的作者名单进行重新统计,这些文献既包括一些对图情界进行小规模h指数研究的文章[2][3],也包括使用传统文献计量手段研究核心作者的文章[4][5][6]。
(2)业内网站提供的名单。笔者从中国图书馆学会网站上提供的机构人员设置情况[8]里获取了担任各级职务的学者名单,笔者认为这些学者在图情界应该是颇有影响力的,故全部纳入候选名单。此外还有重庆维普等网站[9][10]上刊登的图情领域专家名单。
此外,图情界的博客很活跃,很多学者经常利用博客这一途径讨论圈内事情,笔者通过这些博文了解了很多图情界的专家学者,这些学者也都进入了笔者的统计视野。这里仅举四家博客作为代表[11][12][13][14]。
(3)笔者对图情领域核心期刊统计的结果。笔者对20种南京大学版图情类核心期刊进行了统计,内容涉及CNKI所收集的该刊创刊以来的全部数据。笔者利用CNKI进行检索的时间是
2.3 引文数据处理
笔者采用的引文数据库是南京大学的CSSCI,时间跨度为1998-2006年,数据获取时间为2008年1月-2008年3月。它能分年度提供了某一作者名义下自1998年起的被引信息,还可以提供排除自引后的数据。众所周知,计算h指数的关键在于同一作者的同一篇文献在全部统计年度内被引次数的合并问题,但CSSCI并未很好地解决作者唯一性问题和引文数据合并问题。这些问题的存在,对统计作者真实h指数影响较大。
(1)作者同名问题
CSSCI并不能区分同名作者,名字相同而研究领域不同的作者的文章被引数据混杂在一起,这个问题的存在可能会夸大作者的h指数。
(2)引文数据合并问题
●跨年度合并问题。CSSCI提供的被引数据是分年度的,而且每屏所能展示的最大记录数量是50条,对于被引记录大于50条的需要把分屏显示的数据合并,因此无法直接获得某一文献的累计被引数据。它提供的结果形如“命中结果x篇,总计被引Y篇次”,但是其计算篇数并不准确,同一篇文献在不同年度被当作不同的文献计算。如果在来源文献中表述稍有差异,同一篇文献也可能被误认为是不同文献。所以一般而言,CSSCI命中的文献数量要大于等于作者实际发文数量。
●引文数据不规范问题。由于施引者过错,如引用不规范、张冠李戴等,或者数据库整理方过错,如同一篇文献名称入库时略有差异——特别是引号、破折号等差异均可导致引文数据不规范。
●同一文献出现在不同载体的问题。文献发表后可能被文摘刊物收录,或者先后在期刊和网络上发表甚至一稿多投等原因均可能导致同一文献出现在不同载体情况的发生,这些文献的被引数据在引文数据库中会被处理成不同的记录。对于这种情况,应该按照被引文献篇名聚类,将同一文献在不同载体的引文数合并,以还原该文献的真实被引情况,这可以产生高频文章,提升作者的h指数。
针对上文提出的CSSCI存在的问题,笔者采用自编软件将同一作者各年度的引文数据按照被引文献篇名进行聚类并对引文数据进行了合并,进而统计出该作者的h指数,对部分怀疑因重名而造成的高h指数者进行了处理。
(1)同名者处理
由于引文数据库未对作者唯一标识问题进行处理,这导致研究中很难区分同名者。如果不对重名的作者加以区分,很可能导致作者h指数虚高。一般情况下,可以通过研究领域差异来区分同名作者。但如果同名者的研究领域相近这种办法就无能为力了。以“张平”为例,如果不加区分,其h指数可以达到7。从被引文献篇名看,内容涉及知识产权和数字图书馆中的著作权等问题,属于图情领域研究范围,且很难断定不是同一个作者。经查询CNKI可知,作者的单位很多:有北京大学法学院、中国科学技术大学图书馆、国家图书馆等,这属于多个重名者研究领域相近的情况。对于这种情况,笔者采取的办法是根据高被引文献篇名逐个查找其作者信息,然后根据作者的单位、年龄、职称等信息来核实是否为同一作者。最终确认研究法学的张平的h指数是7,但他不属于图情领域,所以不将该记录列入本领域高h指数作者名单。
从上述例子不难看出引文数据库缺少作者唯一标识给h指数统计工作带来的困难和误差。笔者认为可以把作者单位、出生年月、性别、研究领域等信息用于作者唯一标识工作。作者唯一标识问题应该引起引文数据库的重视,否则其以后推出h指数统计功能时的准确性是难以保障的。
(2)引文数据合并
为了减少引文数据误差,笔者先按文献篇名排序聚类,然后用程序汇总引文数据,在各文献总被引降序列表得出后确定h指数时,对可能影响h指数的文献给予重点核查(即EXCEL文件中h指数行记录附近的文献),并合并确因微小差异被程序误判为不同文献的引文数据。笔者采取的这种办法也仅能在一定程度上减少因数据库本身导致的误差,本研究得出的h指数与其它研究者的结果可能存在微小差异的原因也正在于此。
3 统计结果及分析
本研究从近9万篇文章的题录信息中抽取出30274名第一作者的名单(5632篇未署名文章的作者被合并为一个发文5632次的无名作者),进而提取出发文量在5及以上的作者3911人。其中发文量在50以上的有36人,30到49的有99人,20到29的有220人。加上已有文献统计的以及业内网站提供的名单,笔者共调查了4190人,准确统计了总被引次数较高(总被引次数大于20)的1241人的h指数,对于其它总被引次数远小于20的一般未进行精确统计。表1给出了图情领域各h指数数值与相应的人数分布。由于本研究所采取研究方法的原因,表1所测得的h=1和2的作者人数要远小于实际值。本文所用方法虽保证了高h指数作者统计的准确性,但尚无法揭示大量低h指数作者的分布情况。对低h指数作者分布情况的准确调查有待其它研究方法的出现。统计结果显示,h指数在5及以上的共有187人,占全部图情领域第一作者总数的0.62%,占发文量5以上作者总数的4.78%。h指数最大的达16,10及以上的有18人。本研究统计出的h指数在5及以上的187名图情领域高影响力作者如表2所示。
表1 图情领域各h指数数值与相应人数汇总表
h指数 |
人数 |
h指数 |
人数 |
h指数 |
人数 |
h指数 |
人数 |
1 |
103 |
5 |
84 |
9 |
10 |
13 |
1 |
2 |
379 |
6 |
39 |
10 |
7 |
14 |
2 |
3 |
389 |
7 |
25 |
11 |
4 |
16 |
1 |
4 |
183 |
8 |
11 |
12 |
3 |
|
|
表2 部分图情领域高影响力作者的h指数
序号 |
专家姓名 |
h指数 |
专家姓名 |
h指数 |
专家姓名 |
h指数 |
专家姓名 |
h指数 |
1 |
邱均平 |
16 |
刘兹恒 |
7 |
孙建军 |
6 |
乔好勤 |
5 |
2 |
张晓林 |
14 |
刘植惠 |
7 |
李致忠 |
6 |
杜定友 |
5 |
3 |
吴慰慈 |
14 |
邹志仁 |
7 |
强自力 |
6 |
张安珍 |
5 |
4 |
马费成 |
13 |
赵继海 |
7 |
周和平 |
6 |
徐文伯 |
5 |
5 |
蒋永福 |
12 |
杨宗英 |
7 |
霍忠文 |
6 |
司莉 |
5 |
6 |
胡昌平 |
12 |
严怡民 |
7 |
曾蕾 |
6 |
蒋颖 |
5 |
7 |
黄宗忠 |
12 |
谢新洲 |
7 |
冯志伟 |
6 |
赵阳 |
5 |
8 |
肖希明 |
11 |
肖珑 |
7 |
何小清 |
6 |
郑全太 |
5 |
9 |
吴建中 |
11 |
索传军 |
7 |
潘卫 |
6 |
白崇远 |
5 |
10 |
黄俊贵 |
11 |
刘嘉 |
7 |
毕强 |
5 |
甘利人 |
5 |
11 |
张琪玉 |
11 |
赖茂生 |
7 |
付立宏 |
5 |
卢共平 |
5 |
12 |
王知津 |
10 |
马文峰 |
7 |
赵美娣 |
5 |
粟慧 |
5 |
13 |
盛小平 |
10 |
莫少强 |
7 |
梁战平 |
5 |
张福学 |
5 |
14 |
王子舟 |
10 |
杨文祥 |
7 |
娄策群 |
5 |
史田华 |
5 |
15 |
范并思 |
10 |
于良芝 |
7 |
周宁 |
5 |
罗式胜 |
5 |
16 |
彭斐章 |
10 |
朱强 |
7 |
何绍华 |
5 |
匡文波 |
5 |
17 |
马海群 |
10 |
王波 |
7 |
张玉峰 |
5 |
高曼 |
5 |
18 |
包昌火 |
10 |
沙勇忠 |
6 |
李纲 |
5 |
董焱 |
5 |
19 |
乌家培 |
9 |
徐引篪 |
6 |
丁蔚 |
5 |
郭家义 |
5 |
20 |
陈光祚 |
9 |
侯汉清 |
6 |
白国应 |
5 |
郑宏 |
5 |
21 |
程亚男 |
9 |
黄如花 |
6 |
文榕生 |
5 |
富平 |
5 |
22 |
董小英 |
9 |
于鸣镝 |
6 |
马张华 |
5 |
李晓明 |
5 |
23 |
霍国庆 |
9 |
包和平 |
6 |
华薇娜 |
5 |
刘荣 |
5 |
24 |
卢泰宏 |
9 |
秦铁辉 |
6 |
朱庆华 |
5 |
肖燕 |
5 |
25 |
王崇德 |
9 |
刘国钧 |
6 |
俞培果 |
5 |
谢琴芳 |
5 |
26 |
王世伟 |
9 |
倪波 |
6 |
刘磊 |
5 |
刘延章 |
5 |
27 |
来新夏 |
9 |
罗曼 |
6 |
李广建 |
5 |
陈耀盛 |
5 |
28 |
谢康 |
9 |
刘家真 |
6 |
孟连生 |
5 |
黄奇 |
5 |
29 |
叶继元 |
8 |
吴志荣 |
6 |
肖自力 |
5 |
雷燕 |
5 |
30 |
黄晓斌 |
8 |
李家清 |
6 |
周庆山 |
5 |
徐苇 |
5 |
31 |
岳剑波 |
8 |
缪其浩 |
6 |
党跃武 |
5 |
陈能华 |
5 |
32 |
汪冰 |
8 |
陈树年 |
6 |
黄纯元 |
5 |
夏火松 |
5 |
33 |
谭祥金 |
8 |
秦珂 |
6 |
谢阳群 |
5 |
朱建亮 |
5 |
34 |
苏新宁 |
8 |
沈固朝 |
6 |
陈源蒸 |
5 |
杨元生 |
5 |
35 |
柯平 |
8 |
|
6 |
刘洪波 |
5 |
马远良 |
5 |
36 |
程焕文 |
8 |
周毅 |
6 |
李明华 |
5 |
韩继章 |
5 |
37 |
初景利 |
8 |
林曦 |
6 |
顾敏 |
5 |
冯惠玲 |
5 |
38 |
李国新 |
8 |
詹德优 |
6 |
郑建明 |
5 |
何嘉荪 |
5 |
39 |
王重民 |
8 |
姜爱蓉 |
6 |
温有奎 |
5 |
李培 |
5 |
40 |
马恒通 |
7 |
张四新 |
6 |
王纯 |
5 |
徐云 |
5 |
41 |
孟广均 |
7 |
肖东发 |
6 |
刘春茂 |
5 |
刘迅 |
5 |
42 |
叶鹰 |
7 |
张欣毅 |
6 |
韩毅 |
5 |
张晓娟 |
5 |
43 |
陈传夫 |
7 |
张树华 |
6 |
邓小昭 |
5 |
于湖滨 |
5 |
44 |
查先进 |
7 |
刘炜 |
6 |
黄敏 |
5 |
王万宗 |
5 |
45 |
靖继鹏 |
7 |
邹荫生 |
6 |
杜也力 |
5 |
李玉安 |
5 |
46 |
焦玉英 |
7 |
徐建华 |
6 |
李武 |
5 |
郑巧英 |
5 |
47 |
周文骏 |
7 |
高波 |
6 |
王余光 |
5 |
|
|
根据本文的研究,笔者认为可以把h指数为5及以上的图情学者视为本领域有高影响力的专家,其因有三:笔者采取的评价标准很严格,入选作者至少需要在南大版20种图情核心期刊上以第一作者身份发文5篇,而且其h指数不少于5;从职称上看,这些学者绝大多数具有高级职称;从数量关系上看,这部分人占图情领域高产作者的比例是很小的。根据统计结果,笔者认为图情领域作者的h指数具有如下特点:
● 随着h指数的上升,拥有相应指数作者的数量锐减。