ontheways的个人博客分享 http://blog.sciencenet.cn/u/ontheways

博文

引文统计局限性辨析 精选

已有 5224 次阅读 2016-5-13 09:54 |个人分类:期刊评价|系统分类:科研笔记|关键词:影响因子,引文统计| 影响因子, 引文统计

2009年课题组翻译了《Citation Statistics》并发表在《数学译林》2009年第4期(289-304页)。对于文中提到引文统计的问题,文献计量领域学者对此早已达成共识。作者花这么大的篇幅来说说明,主要还是提醒大家谨慎使用期刊影响因子,谨慎使用量化指标。它们不是期刊评价的唯一评价指标,更不是科研评价的"速效救心丸"。

课题组作为专业的计量团队,早在2009年翻译了本文,也是为了更好的普及引文统计的优缺点。正如我们一直跟自己的用户强调,谨慎使用期刊分区数据评价期刊,需要根据实际情况考虑。这次我们重新在微信公众号里推送给用户,以及在科学网博客发布,也是希望用户能得到相关方面的了解和认识。

英文原文

 中文译文



编者按

SCI在中国的科技界已经家喻户晓。曾几何时,SCI在中国成了科研绩效评价的硬指标。从此以后,从事科研管理的管理者似乎找到了一种 “客观”的方法,将发表论文的期刊分成几个等级 ,科研绩效的评价结果就产生了。从此以后,似乎那些追逐SCI的科学家就不再那么 “科学”了,因为他们明知道这样做是不科学的,但是,为了生存,为了获得发展的条件,无奈地服从了。 将 SCI作为科研评价的 “指挥棒”是中国科学界的悲哀。悲哀就悲哀在人们将科研评价这样一件严肃的事情莫名其妙地交给了期刊的编辑部抑或论文的评审人;悲哀就悲哀在人们对数字的迷信,以为数字的就是客观的;悲哀就悲哀在管理者的主观愿望是想搞好科研评价,但是客观上,或者说从长远来看这种方法并不利于 中国科学的发展 ,不利于科研人员创新精神的进发,也不利于科技人才的培养。这不是只有中国才遇到的问题 ,凡是以 SCI为主导的科研评价都会遇到这样的问题,中国如此,其他国家也是如此。世界上科学最发达的美国在科研评 价上对SCI的使用是最谨慎 的。国际数学界 3大科技组织联合发布的这篇文章详细地分析 了SCI统计数据的问题,指出了滥用SCI数据的一些误区,值得一 读。中国的科技管理工作者和中国的科学家或许能够从中获得启发。


概述

这是一份关于科研评价中利用和滥用引文数据的报告。时下正盛行一种说法,这就是科研评价应该采用“简单且客观”的方法。所谓“简单且客观”的方法通常是指文献计量方法,即引文指标以及由其衍生的统计数据。有人认为引文统计数据在本质上更加精确,因为它用简单数字代替了复杂判断,从而克服了同行评议中可能存在的主观性。但是这种观点是没有事实根据的。


·当统计数据未被合理使用时,对统计数据的依赖未必能得到更精确的结果。实际上,如果统计数据被误解或误用,甚至会起误导作用。现在很多文献计量学方法似乎全凭直觉或经验来解读或判断引文统计数据的有效性。


·如果认为数字即意味着“客观”,那么数字的客观性可能就是虚假的。这时引文数据的含义可能比同行评议更加主观。但是,因为这种主观性并非显而易见,那些使用引文数据的人很少能够正确理解其局限性。


·引文数据的唯一可靠之处充其量只是提供了对研究工作并不完整的、通常是肤浅的理解。而这种理解的有效性必须经过其它评价方式的佐证。因此,和其它可靠的评价方式相比,数据在本质上并不具有更高的优越性。在科研评价中使用引文的最终目的是利用引文统计数据进行排序:例如,对期刊、论文、研究人员、科研项目和学科进行排序。然而,这类排序的统计方法经常被错误地理解或被滥用。


·对期刊而言,影响因子最常用于期刊排名。该指标是对期刊论文的引文数量求一个简单的平均数。然而,平均数指标只能够反映论文的引文频次分布中少量的信息,是一个很粗糙的统计数据。此外,评价期刊时还有很多其它基于引文的组合指标,因此,利用影响因子来比较期刊时必须格外小心,单独使用影响因子指标来评价期刊就好比只用体重来判断一个人的健康水平一样。


·对论文而言,人们经常用论文所在期刊的影响因子,而不是用论文实际收到的引文数量来比较每一篇论文。人们相信,较高的影响因子就一定会有较高的引文频次。但是事实经常不是这样。这是一种无处不在的对统计数据的滥用,无论何时何地,只要是滥用都应受到质疑。


·引文数据的唯一可靠之处充其量只是提供了对研究工作并不完整的、通常是肤浅的理解。而这种理解的有效性必须经过其它评价方式的佐证。因此,和其它可靠的评价方式相比,数据在本质上并不具有更高的优越性。在科研评价中使用引文的最终目的是利用引文统计数据进行排序:例如,对期刊、论文、研究人员、科研项目和学科进行排序。然而,这类排序的统计方法经常被错误地理解或被滥用。


·对期刊而言,影响因子最常用于期刊排名。该指标是对期刊论文的引文数量求一个简单的平均数。然而,平均数指标只能够反映论文的引文频次分布中少量的信息,是一个很粗糙的统计数据。此外,评价期刊时还有很多其它基于引文的组合指标,因此,利用影响因子来比较期刊时必须格外小心,单独使用影响因子指标来评价期刊就好比只用体重来判断一个人的健康水平一样。


·对论文而言,人们经常用论文所在期刊的影响因子,而不是用论文实际收到的引文数量来比较每一篇论文。人们相信,较高的影响因子就一定会有较高的引文频次。但是事实经常不是这样。这是一种无处不在的对统计数据的滥用,无论何时何地,只要是滥用都应受到质疑。


国际数学联盟,国际工业和应用数学联合会,美国数理统计学会研究工作定量评估联合委员会Robert Adler(以色列技术学院)John Ewing(主席,美国数 学会) Peter Taylor(墨尔本大学)


1引言

科学研究非常重要。它是当今世界进步的基石。从环境问题到人口膨胀问题都是人类所面临的棘手问题,而科学为我们解决这些难题带来了希望。正因为如此,世界各国政府和科研机构都为科学研究提供了数量可观的资金支持。显然,投资者都想知道投入的资金是否被合理使用;他们也需要评价受资助研究项目的质量,以便在未来投资时作出更明智的决定。

科研评价已有很多年的历史,并不是什么新鲜事。那么,现在的科研评价有何新颖之处呢?所谓新颖就是新在一种提法,认为好的评价必须是“简单且客观的”,并且认为这样的评价可以借助于引文统计数据加以实现,而不需要包括同行评议在内的其他多种方法。近期的一份报告在开篇部分就明确地提出了这种观点:“政府(英国)打算在2008年下一轮评估结束后,改变目前‘英国科研评价实施计划’(the UK Research Assessment Exercise,RAE)对大学科研质量的评价。统计数据而不是同行评议,将成为新评价系统的焦点。政府希望文献计量学方法(用期刊论文的数量及其引文频次)作为新评价系统的主要质量指标。[Evidence Report 2007, p3 ]”那些赞成科研评价应遵循“简单客观”原则的人认为,由于科学研究非常重要,因此对科学研究的评价不能完全依靠主观判断。他们相信基于计量分析的引文数据能够提供确切的排名,可以消除其它评价方法的含糊性,并认为小心谨慎选择的统计数据是独立的、无偏见的。最重要的是,他们确信统计数据简单有效,可以比较研究工作的诸项组成部分:期刊、论文、人员、项目乃至整个学科,无需采用主观的同行评议。


然而,这种认为统计数据一定准确、独立和有效的观点是错误的。

·第1,计量数据的精确性含义被曲解。有一句格言说得好,统计数据使用不当时,数据就成了谎言。目前,滥用引文统计数据已成为普遍现象。尽管对滥用引文数据(例如影响因子)的现象再三提出警告,但是,政府、科研机构甚至科学家本人仍在拿引文统计数据说话,甚至从误用的引文数据中得出错误的结论。

·第2,用单一的基于数据统计的引文来取代其它的评价方法。主观的同行评议被取代,而得到的结果却是对引文含义的主观阐释。那些提倡只用引文数据的人假设,每一次被引对于被引的研究成果而言同等重要。这是一个从未经过证明的、彻头彻尾的错误假设。

·第3,统计数据对于理解我们所生存的世界颇有价值,但只提供了一孔之见。当今世界,人们在提出一种玄妙的理念时,会采用数字测度的方法。这种方法往往比其它方法更为盛行。那些倡导引文统计数据可以对科研工作作出更充分理解的人正是持这种观念。我们不仅需要正确地利用统计数据,而且更需要明智地使用这些数据。


在本报告中,我们并不讨论对科研评价所作出的种种努力,而是要讨论仅仅依赖“简单客观”的引文数据进行评价的要求。此类评价通常要求有易于计算的数字,例如论文排序、作者排序、或项目排序。科学研究常常是多目标的,既有长期目标又有短期目标。因此,对科学研究价值的评价也必须是多标准的。只有这样才是合理的。数学家们都知道,很多事物,无论是具体的还是抽象的,即使具有可比性,也是不能被简单排序的。对事物的比较需要更加全面的分析,很多时候不能给出孰轻孰重的答案。所以,有时候,要回答“谁更好?”,正确的答案是:“具体情况具体分析!”

在此之前,曾经有人设计用多种方法来评价研究质量(例如[Martin 1996],[CareyCowling-Taylor 2007])。研究成果的质量可以通过多种方法来判断,而不是只用引文来评价。例如收到学术邀请、担任编委及获奖等体现学术声望的标准通常都可以用于质量评价。在某些学科和一些国家,获得基金资助的情况在评价中也发挥着一定的作用。另外,同行评议是来自同行科学家的判断,也是评价的重要组成部分(我们不应该因为同行评议偶尔存在偏见就弃之不用,正如不能因为人们有时滥用引文统计数据而放弃引文指标一样)。上面提到的只是多种科研评价方法中的很少一部分。合理的科研评价可以有很多途径,它们的相对重要性因学科而异。尽管如此,基于统计的“客观”的引文数据还是成为科研评价的首选。看来简单过程和简单数字(或者说单个数字)的诱惑压倒了科学共同体的共识和合乎情理的判断。

这份由数学家撰写的报告旨在讨论科研评价中对统计数据的滥用。当然,这种滥用有时与数学学科自身直接相关,这也是写此报告的原因之一。数学学科自身的期刊、论文和作者的低引率等引文特点使得滥用引文数据更会伤害数学界。不过,我们相信,所有的科学家包括公众,都渴望使用合理的科学方法来评价科研活动。

由于引文数据曾被不当使用,科学共同体中的部分人完全放弃之,这是一种过激反应。这样做将意味着抛弃一种有价值的工具。如果引文数据能够被正确使用、慎重解释,并且只要对评价过程稍作改进,那么,它将在科研评价中起到一定的作用,因为引文数据提供了有关期刊、论文和人员的信息。我们并不希望隐藏信息,我们需要阐明信息。

上面所说的就是这份报告的目的之一。在本报告的前3部分主要介绍了引文被用于(或误用于)评价期刊、论文和人员的方法。接下来的部分将讨论引文的各种含义以及伴随而来的引文统计数据的缺陷。最后一部分提出了合理利用引文统计数据的建议,并呼吁即使引文数据会使科研评价更为简单,也应将引文数据与其它评价方法结合起来使用。

阿尔伯特·爱因斯坦曾经说过:“万事万物应当尽量简单,而不是更简单。”这条来自世界上最伟大科学家的忠告用在科研评价中是再恰当不过了。(注:这句话引自1977年10月美国《读者文摘》关于爱因斯坦的文章,出自爱因斯坦的原话:“不可否认,所有理论的终极目标应该是使不可简化的基本元素尽可能少而简单,而不必放弃对实验数据的充分解释。”引自牛津大学题为“理论物理方法”的Herbert Spencer讲座(1933年6月10日).该讲座稿发表在《Philosophy of Science(科学哲学)》上(Vo1.1,No.2(April 1934),P.163—169).——原注)




http://blog.sciencenet.cn/blog-755333-976871.html

上一篇:《中国管理科学十年:中国与世界》
下一篇:期刊影响因子辨析

6 陈冬生 李宁 章雨旭 黄永义 qzw xlianggg

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-12-15 03:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部