随想图情分享 http://blog.sciencenet.cn/u/周春雷 博以知不足,在灌水中聆听生命的嬉戏

博文

利用CSSCI研究h指数的方法及相关问题

已有 11971 次阅读 2010-9-4 11:15 |个人分类:h指数|系统分类:论文交流| H指数, h指数批量统计法, CSSCI

发文信息【周春雷.利用CSSCI研究h指数的方法及相关问题[J].图书情报工作,2010(16):40-43.】
作者信息【周春雷 郑州大学信息管理系,郑州450001】
[摘要针对CSSCI仅提供分年度引文数据、不能直接用于h指数研究的不足,介绍了一种能实现跨年度引文信息合并的h指数统计方法来克服这一缺陷。最后指出利用CSSCI数据进行h指数研究值得关注的一些问题。

1  引言

众所周知,学术成就评价标准一直是学术界争论不休的话题。美国学者Hirsch(2005)教授提出的h指数[1]介绍了利用引文信息的新方法,能同时考察作者生产力和文章质量,提供了不同于发文量、总被引、期刊影响因子等传统文献计量指标的新视角,在国际上产生了深刻的影响。但很少有引文数据库直接支持精确的h指数统计,南京大学研制的CSSCI也不例外。研究者需要对获得的引文数据进行二次处理才能得到相应的h指数,这给相关研究带来了很多不便。为此,本文以CSSCI为例介绍一套适合程序处理的h指数统计方法,并讨论了h指数研究值得关注的一些问题。
2  利用CSSCI数据研究h指数的方法
2.1 引文数据获取途径
CSSCI引文数据的获取可以通过两种途径:来源文献和被引文献。通过来源文献途径将CSSCI的各来源期刊参考文献汇集起来,然后再施以特定作者视角抽取,即可得到该作者的被引信息,最终得到作者h指数。但是,这种方法实践难度很大且具有明显的知识产权风险,因此本文仅介绍被引文献途径的利用方法。
被引检索结果的利用有两种办法:(1)复制浏览器分屏显示的检索结果并用自编程序处理。(2)勾选网页下方的“选择所有”选择框,点击“下载”按钮,将得到一个文本文件,其内容比浏览器呈现的结果更丰富。同理,需要将分屏得到的各文本文件合并,以得到全部被引信息。由于后一种方法涉及对引文数据库的多次查询,数据搜集速度明显慢于前一种方法,故本文主要基于前一种搜集方法进行介绍。
2.2 CSSCI引文数据处理
众所周知,计算h指数的关键在于同一作者的同一篇文献在全部统计年度内被引次数的合并问题,但CSSCI并未很好地解决引文数据合并问题和作者同名问题。这些问题的存在,对统计作者真实h指数影响较大[2]。这些问题的成因是多方面的,有的并非h指数研究者所能改变,需要多方努力才能解决。因此,本文重点关注引文数据合并问题。
观察来自CSSCI的数据可以发现,“作者”、“被引文献篇名”、“被引期刊”、“被引次数”等信息被相同的分割符号隔开,如果使用程序将这些信息分离并将同一作者的同一被引文献的数据合并在一起,再按照总被引次数降序排列即可获得该作者的h指数。
1)将CSSCI数据整理为EXCEL格式
以下代码的功能是将CSSCI数据整理为EXCEL格式,同时给每条被引数据附加年度信息。listbox3的内容是从CSSCI获取的数据,ss用来存储年度信息。最后一句代码通过替换分割符实现CSSCI数据到EXCEL格式的转换。
   for i:=0 to listbox3.Items.Count-1 do
      begin
      if length(listbox3.Items[i])<5 then continue;
          if (pos('以下是:',listbox3.Items[i])>0) then ss:=copy(listbox3.Items[i],9,4);
   if (pos('以下是:',listbox3.Items[i])>0) or (listbox3.Items[i]='') or(pos('序号 被引作者 被引文献篇名 ',listbox3.Items[i])>0) then j:=1
   else memo1.Lines.Add(ss+#9+listbox3.Items[i]);
      end;
   memo1.text:=stringreplace(memo1.Text,' ',#9,[rfReplaceAll]);
2)规范篇名数据
引文数据不规范问题虽非h指数研究者所能完全解决,但我们可以通过篇名数据规范化消除一些明显的人为失误,如英文单词大小写不统一、引号、破折号不统一等。
2.3 h指数统计过程
1)提取篇名和被引数据
通过对每条被引数据实施列转行,提取出篇名和被引数据,代码从略。
2)累加同一文献的被引数据
根据篇名聚类就是根据篇名列排序,累加同一文献被引数据,代码从略。
3)提取h指数
将某作者的全部论文按被引次数降序排列,然后利用笔者在文献[3]中介绍的提取h指数算法即可得到相应的h指数。
利用本文介绍的这种方法,笔者实现了汇总某领域全部期刊被引信息并统计成千上万作者h指数信息的“h指数批量统计法”(LHEA)[3]
3 研究h指数时值得关注的问题
值得注意的是,h指数是与引文数据库高度相关的。国外学者Bar-Ilan[4]基于WOS、Scopus和Google Scholar等不同引文数据库测量同一作者h指数的实证研究也表明h指数会因引文数据库而异。以国内引文数据库为例,由于收录文献类型、时间段、合作成果被引分配等差异,基于CNKI的h指数要普遍高于CSSCI。
除了前文所述的引文数据年度分段问题和引文数据不规范问题外,还有以下问题会影响h指数的大小,因此值得研究者给予特别关注。
(1)时间问题
h指数本为评价作者终身学术成就之用,从理论上说需要完整收集作者所发文章的被引数据。但是,计算h指数一般都要依托某个引文数据库进行,而引文数据库都有一定的引文回溯时间段,对超出引文数据库覆盖范围的作者来说,其h指数可能会受到时间段长度的影响。换言之,按作者终身被引数据和某个时间段内的被引数据所计算出的h指数是有很大差别的。值得注意的是,CSSCI中仅有1998年后的数据,因此对1998年以前即开始学术生涯的作者来说,其h指数可能在某种程度上被低估了。
h指数的时间问题一直是学术界关注的重要内容。为了解决h指数与科学家学术生涯的关联问题,Hirsch(2005)[1]根据科学家从事学术生涯的年份对h指数进行划分,提出了线性增长模型。梁立明(2006)[5]提出了h序列和h矩阵的概念试图使原本处于不同科研阶段的科学家变得可以相互比较。金碧辉(2007)[6]考虑了论文发表年龄,提出了AR指数。Burrell(2007)[7]则提出利用h速率评价科研人员的学术成绩。相信这些概念和指标对我们理解时间因素在h指数评价中的重要性会有很多启发。
(2)收录范围问题
截至2008年,CSSCI的来源刊物仅限于国内19个学科分类528种社会科学方面的中文期刊,其1998-2007年的来源文献累积起来近80万篇,引文记录500余万条[8]。与国外成熟引文数据库来源期刊数以千计的规模相比小了许多。虽然规模较小,但CSSCI还是有自己的特色,其文献类型的丰富性值得肯定。与WoS数据库仅收录期刊类型被引信息不同,CSSCI在收录文献类型方面要广泛得多,它不仅收录来源文献记录的期刊被引信息,而且收录书籍、网络文献等的被引信息。
引文数据库的规模和收录文献类型的广泛程度对h指数的影响较大。在h指数实证研究中,该问题对不同学科的影响存在很大差异。如果只考虑期刊论文的被引情况,一些文科类学者的h指数会偏低,因为很多本应进入作者h核的非期刊类型的文献被忽略了。以历史学为例,除期刊论文外,专著也是该学科的重要学术交流方式。因此,我们在h指数分学科实证研究中应注意类似问题。
(3)作者唯一标识问题
Rousseau(2008)将因作者名称问题引起的h指数统计误差称为h指数精度问题[9]。该问题在各引文数据库中普遍存在,一些大的引文数据库采取了各种措施试图解决它。但到目前为止,尚无完美解决方案,精度问题依然是制约h指数研究的瓶颈。
作者重名问题是导致h指数精度问题的重要原因,引文统计平台需要解决作者重名问题,否则可能导致作者h指数虚增。笔者认为,作者h指数之所以被夸大,很重要的一个原因在于来自不同领域的同名者的被引信息混杂在一起[10],我们可以通过将被引文献限制在领域专业期刊等方法利用学者研究领域的差异来区分同名作者。基于这种思路,笔者提出了h指数批量统计法[3],但该方法对解决h指数精度问题也有一定的局限性:如果同名作者的研究领域相近或处于同一领域就很难区分了。
很多研究者认为对作者进行唯一性标识是解决h指数精度问题的根本办法,这就需要引文数据库采取特殊的方法为每个作者赋予独特的标识。笔者认为,作者唯一标识问题看似简单,实则牵涉很多因素,对学术评价也会有很大影响,因此将是一项影响深远的系统工程。它不仅应引起CSSCI等国内引文数据库的重视,而且值得学术界展开深入的研究。
(4)合作者成果分配问题
合作学术成果的学术荣誉分配问题历来是学术界关注的话题,早在1973年,科尔兄弟就提出荣誉全归第一作者的建议。此后有学者建议将被引荣誉重复赋予每个作者,还有学者建议按不同的权重赋予不同的作者,使每个人或公平或有差别地分得某种分数形式的荣誉。h指数评价方式的兴起为这一传统话题的讨论增加了新的内容,为降低多作者因素对h指数有效性的影响,学者们根据各种分配思路提出了不同的改进型h指数指标,如Batista等(2006)提出了hI指数[11];Wan,JK、Hua PH和Rousseau R (2007)提出Hp指数[12];Schreiber(2008)提出hm指数[13];周春雷(2009)提出按合作者人数均分被引次数的h-a指数[14]
CSSCI的引文数据是按第一作者来分配的,但合作在科研论文生产中非常普遍的,如果合作文章的被引数据全归于第一作者,对其它作者是否公平呢?有的数据库,如CNKI,将引文数据重复分配给每个合作者,但这样是否又夸大了每个作者的贡献呢?面对不同引文数据库的不同处理方式和多种合作成果分配建议,我们该何去何从呢?
(5)自引问题
自引是非常普遍的引文现象,其中既有保障正常学术研究得以延续等客观需要,也有非学术性引用。自引可能会增大作者、期刊的h指数,引用有高度针对性的h指数精确注水[15]式自引更是如此。方舟子(2006)认为大量自引可以显著改变h指数[16],他举了一个典型例子,如果排除自引,被新语丝多次曝光的国内某教授的h指数会由14变为6。Schreiber(2007)[13]也研究了h指数与自引之间的关系。
CSSCI具有排除自引功能,这在一定程度上方便了研究者。但由于CSSCI仅记录了第一作者的被引信息,如果我们想研究更严格的排除自引,如排除第二作者、第三作者甚至全部作者的引用,CSSCI就难以胜任了。
(6)计量单位问题
作者被引文献的数量制约着h指数的增长上限,同时单篇文献的被引次数又决定了h指数的下限,因此,作者所发表文献的计量单位就成为很重要的问题。这个涉及到成果通过多种途径重复发表和拆分发表问题。
重复发表有两种情况,其一是文章在期刊上发表后被文摘刊物转载或在网络上出现,施引者可能通过原始期刊、文摘刊物、网站等不同途径接触被引文献,因此其著录的参考文献中尽管篇名相同但来源却有所不同;其二是作者主动或被动地导致了同一文献在不同期刊上重复发表。这些来源不同的文献是作为同一篇文献来累计被引还是作为不同文献分别计算被引呢?拆分发表是指源于同一著作的内容被分拆以连载或稍加变化的形式发表在期刊上的情况。这些被拆分发表的文献,在计算的时候是作为不同的文献呢还是作为相同的文献?远高于h指数的单篇文献的被引数据也只作为一个h指数计量单位是否会让作者有不公平的感觉?这些问题值得h指数研究者认真思考。
对于某些著作很少,但总被引很高的作者来说,如果将超高被引的文献拆分为多个文献来计量,其h指数将有明显变化。以仅留下一部经典著作《道德经》的作者老子为例,笔者2008年3月11日检索时其总被引次数为1198次,如果将《道德经》整体作为一个计量单元的话,老子的h指数显然只能是1。但是,CSSCI中也有很多明确标注引用该书某一章节的引文,如果以章节为计量单位,老子的h指数显然可以有很大提升。换言之,文献如被拆分发表虽会导致单篇文献的被引数降低却能增加可计量数量,从而可能导致h指数的增长。反之,即使连载或拆分文献的单独被引数都远低于作者的h指数,但合并起来却可能对h指数的增长作出贡献。因此,作者h指数的这种变化完全取决于研究者对计量单位的界定。对于这种计量单位问题,h指数并没有给出明确规定。
笔者认为,h指数计量单位问题也取决于作者自己的学术道路规划。合并发表虽然减少了总发文数,却凝聚了单篇被引数,从而为该作者h指数的上涨开辟了广阔的空间,使其不至于因缺少一两个被引卡在低层h指数上;相反,“香肠论文”式的拆分发表,虽能在短期内迅速拉长作者的被引文献列表,对低层h指数的增长有明显的作用,但由于分散了单篇文献的被引次数,使其难以随着作者学术影响力的提升进入高层h指数的h核内。h指数的这一特点也许可以引导广大有实力的作者树立远大学术抱负,努力增加单篇文献的价值含量,而不去走为追求发文数量而拆分发表的“捷径”。
4  结语
综上所述,本文提出了一种利用CSSCI引文数据统计h指数的方法,并给出了关键代码,继而讨论了利用CSSCI数据研究h指数时应关注的一些问题,如时间、收录范围、作者唯一标识、合作者成果分配、自引、计量单位等问题。这些问题具有一定的普遍性,不仅与特定数据库有关,而且与h指数方法本身有关。希望本文的探讨能引起学界对相关问题的关注,为h指数的发展和完善做出积极贡献。
参考文献:
[1]  Hirsch J. An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572.
[2] 邱均平,周春雷.发文量和h指数结合的高影响力作者评选方法研究.图书馆论坛,2008(6):44-49.
[3] 周春雷.h指数批量统计法及其应用研究.情报学报,2010(1):100-107.
[4] Bar-Ilan J. Which h-indices? A comparison of WoS, Scopus and Google Scholar.Scientometrics,2008,74(2):257-271.
[5] Liang L. h-index sequence and h-index matrix:Constructions and applications.Scientometrics,2006,69(1):153–159.
[6] Burrell Q.Hirsch index or Hirsch rate?Some thoughts arising from Liang's data.Scientometrics,2007,73(1):19-28.
[7] 金碧辉,Rousseau R. R指数、AR指数:h指数功能扩展的补充指标.科学观察,2007(3):1-8.
[8] “中文社会科学引文索引”(CSSCI)简介.[2008-08-02].http://202.119.47.137/introduce.htm.
[9] Rousseau R. Reflections on recent developments of the h-index and h-type indices.COLLNET
Journal of Scientometrics and Information Management,2008,2(1):1-8.
[10] 周春雷.基于h指数的核心作者遴选方法的比较研究.中国科技资源导刊,2009(1):46-51.
[11] Batista PD, Campiteli MG, Kinouchi O, et al.. Is it possible to compare researchers with different scientific interests?.Scientometrics,2006,68(1):179-189.
[12] Wan JK, Hua PH, Rousseau R. The pure h-index : calculating an author’s h-index by taking co-authors into account. COLLNET Journal of Scientometrics and Information Management, 2007,1(2):1-5.
[13] Schreiber M. To share the fame in a fair way, hm modifies h for multi-authored manuscripts.New Journal of Physics, 2008(10):040201.
[14] 周春雷.h指数合作式注水缺陷与对策.图书情报知识,2009(3):109-112.
[15] 周春雷.h指数的潜在缺陷——h指数精确注水问题研究.图书情报工作,2008(8):112-114.
[16] 方舟子.h指数:一种新的学术评价方法.同舟共进,2006(5):9-10.


论文与评价
https://blog.sciencenet.cn/blog-60286-359183.html

上一篇:我的博士论文后记
下一篇:觅下联:影响因子影响银子
收藏 IP: .*| 热度|

10 李晓楠 陈凯华 武夷山 赵星 章成志 任胜利 孙学军 李鑫 吉宗祥 贺天伟

发表评论 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 19:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部