武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

基于文献利用数据的期刊论文定量评价研究 精选

已有 11813 次阅读 2012-9-2 06:40 |个人分类:科学计量学研究|系统分类:论文交流| 论文评价

(博主按:下面的版本在文字上与发表版本有微小差异,内容是一样的。)

基于文献利用数据的期刊论文定量评价研究*

何星星     武夷山

(中国科学技术信息研究所,北京,100038

 

(发表于《情报杂志》2012年第8期)

摘要  传统期刊论文评价工作关注的是论文内部特征和引用情况,本文从新的视角提出以文献的利用数据(包括网页点击量、浏览量、下载量),及调整指标(点击下载率、下载引用率),综合评价一篇文章的表现力,并利用《PLoS Biology》与F1000系统数据做了实证分析,证明了上述指标的可行性,其表现也优于被引这一单一指标。

关键词  科技论文评价;文献使用指标;被引频次;下载量;点击量

中图分类号  G35     文献标识码  A

 A Quantitative Method for Assessing Single Publications Based on Paper Usage Data

He Xingxing  Wu Yishan

(Institute of Scientific and Technical Information of China, Beijing, 100038)

AbstractThe traditional way of assessing scientific papers focuses on the internal characteristics and citation frequency. In this paper, we propose to do the evaluation from a new perspective—paper usage data. We introduce some new indicators, including paper usage index( HTML page views, downloads, citations) and the adjustment indicators (the ratio of download to views, the ratio of citations to download), to assess a single paper comprehensively. It is shown that this approach  works and is better than using citation onlyby comparing our ranking results drawn from PLoS Biology data with the F1000 paper scores .

Keywordsevaluation of scientific paperspaper usage indexcitation HTML page viewsdownload

1.引言

学术文献是科研产出的重要形式,可以从侧面反映国家、机构、个人的科研实力,也可以反映各学科发展现状和趋势。学术文献评价工作关系到国家科技的良性发展和原始创新能力的提高,关系到科研环境建设,具有重要意义。

目前,学术文献评价方式主要有三种:基于同行评议的定性评价,基于科学计量学指标的定量评价,以及二者结合的理想方式。

同行评议因人力、时间等因素限制,在海量文献不断涌现的数字时代面临诸多困难。评审专家精力时间有限,知识结构相对局限,人情利益等因素都是同行评议不可避免的难题。基于计量的定量评价集中于两项指标,论文发表期刊影响因子和被引频次,片面地使用这两种方式给学术评价工作带来很多弊端。影响因子代表一定时间内期刊的论文被引水平,同刊物内论文水平不一,这种简单的以刊评文的方式不恰当。20036月,科技部、教育部等五部委联合发布《关于改进科学技术评价工作的决定》,强调:刊物的影响因子,在用于宏观上判断科学技术产出的总体情况是有意义的,但不宜作为具体论文内在价值的判断标准。[[1]]此外,学科间引用情况不同,简单以被引频次评价文章也不合适。即使被引频次相同,也不能简单将两篇文章水平等同,因为被不同人、不同文章引用,其价值也是不同的。

传统论文评价工作更多关注论文的内部特征(基金资助情况、发表期刊情况、收录数据库等),对于外部特征仅仅是考虑到文章的被引频次,较为单一。在数字化时代,论文点击量、下载量、被链接次数等新的统计数据也唾手可得,这给单篇论文的评价工作带来新的视角。本文从文献利用数据方面定量评价单篇学术文献,用实例验证了该方法的可行性。需要指出的是,该方法也有待改进和完善。

2现有研究

目前,学术评价的对象集中于期刊、机构、科研人员,关于单篇论文评价的研究主要关注两方面:单指标评价研究与综合指标评价体系研究。

在单指标评价研究方面,Schubert A2009)提出用单篇文献施引文献的h指数来表示这篇文章的h指数,该方法更适用于高被引文章[[2]]Kosmulski  Marek2011)提出成功论文successful paper-SP)的概念,并定义成功论文:一篇论文的被引用次数超过该文章参考文献的数量的论文[[3]]Van, ErjiaDing, Ying2010[[4]]Walker, Dylan , et al.2007[[5]]Su Cheng, et al.2010[[6]]等人,提出基于pagerank的思想的单篇文献评价方法,综合考虑引用的数量与质量,引入引用间隔时间权重和引用期刊的知名度权重。Fragkiadaki E等人提出F-值指标,在引文网络中,区分直接引用与间接引用,并考虑路径深度n,按照一定算法得出相关论文的F[[7]]Lutz Bornmanna等人提出了引用速度指标(citation speed index),主要是指文献第一次被引用的时间间隔,一般而言从发表到第一次被引的时间间隔越短,该文章的影响力越高[[8]]Hu Xiaojun,Ronald Rousseau,Chen Jin提出基于文章参考文献数和二代引用数的CR指数、CC指数[[9]]。邱均平提出了论文质量指数(Paper Quality Index,可以解决不同学科之间比较和时效性方面的问题[[10]]。吴勤[[11]]、钟文一、陈云鹏[[12]]从消除自引的角度出发,设计了引证强度/引证系数,优化了影响因子。徐芳、刘文斌、李晓轩提出等同论文数(EPN[[13]],通过稿件录用率测量学术论文中包含的等同工作量,实现对学术论文质量的评估。

在综合指标评价方面,Cho SR提出了开源环境下论文的评价综合指标,设计了OAR评价模型[[14]]PLoS ONE总编Peter Binfield200912月召开的一次科学计量学会议上,就网络环境下论文质量评价可以考虑的因素做了分析,并提出了相关的指标,包括使用数据、浏览量、从Scopus CrossRef获得的引用量、社会网络链接、相关新闻报道、评论和读者评级等[[15]]Sombatsompop N等人在对引文的评估中,提出了文章影响因子(article impact factors AIF)、位置影响因子(position impact factors PIF)、期刊影响影子( journal impact factors JIF)等多个指标,使用多指标进行评价,特别考虑了在文章不同位置引用应该给予不同权重[[16]]。国内研究方面,张玉华、潘云涛、马峥提出用期刊文献类型、期刊影响力、国际显示度等多项指标综合评估科技论文质量[[17]]。杨亚晶、左惠凯等对高校的学术评价文献体系进行了研究,主要基于发表论文级别、会议论文级别、著作的字数以及论著类别等方面的考虑[[18]]。金晶、何钦成、王孝宁等对跨学科门类的学术论文影响力评价方法进行了研究,建立了综合评价体系下应用TOPSIS法计算其综合评价值、应用SOM法聚类的一套评价体系[[19]]。苏学、郭继军等人分别对期刊论文质量评价指标体系进行了探讨,并初步设计了一系列相关指标(期刊影响因子、论文被引情况、论文基金资助情况等)[[20]]。程艳丽依据期刊影响因子、被引频次和h指数,运用期刊评价的数学模型来评价学术成果,在比较同行评议的基础上探讨综合评价方法[[21]]。于跃进对学术研讨会论文进行定性评价与定量评价,增加定量评价因子,体现评价的层次性与综合性[[22]]。罗江琴提出了基于Web社区的科研论文自动评价方法,该方法本质上是模拟同行评议[[23]]

综上,单篇文献单指标评价专注于引用指标,并适度计及引用的质量,例如引入时间截点、影响因子、直接间接引用、自引他引、引用位置等。在综合指标体系方面,除了被引频次、期刊影响因子外,人们还考察了一些其他指标,如发表论文的级别、学术会议级别、基金资助情况、被国际文献数据库收录情况、文献类型等。此外定量与定性评价相结合也是一大趋势。

3指标选择

一篇文献大致包含两类信息,内部信息和外部信息。内部信息是指自发表之日起作者或编辑赋予文章的属性,如发表时间、发表期刊、发表栏目、基金资助、文献类型、参考文献数等。外部信息是指文献发表后来自外部的各种反馈包括引用、浏览、下载、评价、社会网络传播等,如表3.1所示。

3.1 单篇文献信息分类

信息属性

具体信息

指标延伸

内部

发表时间

 

发表期刊

期刊影响因子等

文献类型

文章Article综述Review社评Editorial Material快报Letter

基金资助

是否获得基金资助及基金级别

合著情况

是否合著;国际合著或国内合著

参考文献数

 

页数

 

发表栏目

外部

引用

引用的量:引用次数、引用半衰期

 

引用的质:引用论文自身的质量

网络浏览

总点击次数、浏览持续性:月浏览量大于平均水平(中值)的月份总数等

下载

下载总量、下载持续性:月下载量大于平均水平(中值)的月份总数

Blog覆盖量

科研类博客网站链接、关注文章的次数,如科学网、Nature BlogsBloglines

社会网络标签数

个人在文献管理网站对文献添加的标签数量,目前比较出名的网站有CiteULikeConnote、百度文档等

如上所述,现有的单篇论文评价方式,在内部信息方面关注来源期刊的影响因子,在外部信息方面关注被引频次,仅此而已。本文尝试用更为全面的外部指标来评价单篇文章。考虑到目前数据可得性,本文提出以下外部指标来评价单篇文献的学术质量:

a. 被引频次:引用是对文章的直接肯定,是反映文章学术价值的重要部分。需注意,不同学科之间被引频次的不可比性,如需考虑论文在不同学科的被引情况,可考虑引用频次在学科内的被引百分位。鉴于被SCI收录期刊引用更有代表性,以及多数人的使用习惯,本文引用数据来自Web of Science

b. 下载指数=0.4*下载量+0.6*下载持续性指数(数据需标准化)。下载也是文献利用的一种方式,表明该文章对读者的研究有参考价值,这种价值不一定反映在参考文献中(即引用),还可能是别的启发,如扩展文献阅读。下载量是从数量上反映文献被关注程度,但是可能有偶然因素导致数据偏高,如文章才发表时放在网站首页而被关注,本文提出下载持续性指数,即月下载量超过平均水平(取所有月下载量中值)的月数和,可反映下载的“质,可部分消除这种偶然因素。

c. 浏览指数=0.4*浏览量+0.6*浏览持续性指数,算法同上。浏览是另一种文献利用形式,但其所传播的价值又是不及引用和下载的,这点可以用权重加以调整。

d. 浏览下载率=下载量/浏览量,反映文章被浏览后下载的概率,是对点击量的调整指标。

e. 下载引用率=引用量/下载量,反映文章下载后被引用的概率,是对下载量的调整指标。

浏览量、下载量和引用频次,都是关于“利用”的指标,本文将这三项合并成文献利用指标,并根据其重要性赋予相应权重,文献利用指标=0.5*被引频次+0.3*下载指数+0.2*浏览指数。de指标是对文献利用指标的调整,因为单方面提高某个指标是可以人为操作的,但是综合提高各项指标就有难度了。本文设定,单篇文章总得分=文献利用指标+浏览下载率+下载引用率(此处均是标准化值)。

4 基于 PLoS Biology的实证分析 4.1 数据准备

  公共科学图书馆(Public Library of Science, PLoS)是一个由科学家和医生组成的非营利机构,致力于全球科学和医学文献的OA服务。PLoS BiologyPLoS旗下最具代表性的刊物之一,著名线上期刊PLoS ONE也是PLoS系列刊物之一种。PLoS在其网站上对每篇文章提供了详细的文章级别测度值(Article-level-metrics),包括使用数据(usage data)、浏览量(view data)、从ScopusCrossRef获得的引用量、社会网络链接、相关新闻报道、评论和读者评级等,本文实证部分正是基于这些数据。考虑到论文使用的时滞性和科技评级的及时性,本文选取的是2010年发表在PLoS Biology并被SCI收录的所有文章,共243[1],包括两种文献类型:Editorial MaterialArticle由于社评文章很少,本文未对两种文献类型分别处理,而是视为一体。

数据说明:

(a)被引次数:截止到2012418日某篇文章在Web of Science平台上获得的引用次数。

(b)点击量:文章自发表之日起在PLos网上被点击次数。

(c)下载量:文章自发表之日起在PLoS网站上以PDF格式及XML格式下载次数总和。

(b)(c)数据均来自PLoS网站发布的PLoS-ALM文件,发布时间为2011918日。

4.2 数据分布及相关性分析

对原始数据做单样本 Kolmogorov-Smirnov 检验,结果如表4.1所示,检验发现,只有点击下载率符合正态分布。

 

 

4.1  原始数据Kolmogorov-Smirnov 检验

 

被引频次

浏览量

下载量

下载引用率

点击下载率

N

243

243

243

243

243

正态参数a,b

均值

13.03

3637.78

1018.33

.011866

.3106012

标准差

20.493

3907.273

692.107

.009616

.0766763

最极端差别

绝对值

.262

.251

.180

.137

.068

.234

.228

.180

.137

.068

-.262

-.251

-.160

-.109

-.060

Kolmogorov-Smirnov Z

4.090

3.909

2.810

2.142

1.063

渐近显著性(双侧)

.000

.000

.000

.000

.208

a. 检验分布为正态分布。

b. 根据数据计算得到。

因为多数指标不符合正态分布,此处用Spearman系数(秩相关系数)检验指标间相关性。Ffa表示F1000系统中专家对某篇文章的评分(下文会有具体说明),可代表“金标准。如表4.2所示,各个指标与Ffa的相关性都不强,可以从不同侧面反映文章质量。多数指标间相关性不显著,只有浏览量与下载量、被引频次与下载引用率显著相关,Spearman系数分别为0.880.860。网页点击量与点击下载率负相关,即当点击量很高时,提高该指标难度加大。

4.2 原始数据相关性分析

Spearman rho

浏览量

被引频次

下载量

下载引用率

点击下载率

Ffa

浏览量

 

相关系数

1.000

 

 

 

 

 

Sig.(双侧)

.

 

 

 

 

 

被引频次

 

相关系数

.394**

1.000

 

 

 

 

Sig.(双侧)

.000

.

 

 

 

 

下载量

 

相关系数

.880**

.524**

1.000

 

 

 

Sig.(双侧)

.000

.000

.

 

 

 

下载引用率

相关系数

-.022

.860**

.071

1.000

 

 

Sig.(双侧)

.738

.000

.267

.

 

 

点击下载率

相关系数

-.343**

.214**

.078

.226**

1.000

 

Sig.(双侧)

.000

.001

.227

.000

.

 

Ffa

 

 

相关系数

.138*

.362**

.229**

.280**

.208**

1.000

Sig.(双侧)

.031

.000

.000

.000

.001

.

N

243

243

243

243

243

243

**. 在置信度(双测)为 0.01 时,相关性是显著的。

*. 在置信度(双测)为 0.05 时,相关性是显著的。

注:Ffa表示F1000文献评估系统基于同行评议的文献评分,作为定性参照。

4.2 方法及结果

本文采用标准分对数据进行标准化,计算各指标Z得分和T得分[[24]]标准分能反映对象在集合中的位置,其最大特点是考虑到指标得分的相对难易程度。标准化后,利用本文所提指标将结果与F1000Faculty of 1000)的评价Ffa得分进行对比。

F1000Faculty of 1000)由英国BioMed Central发行,包括生物学(Biology)和医学(Medicine)两大系列,旨在为全球生物学及医学研究人员提供在线文献评估。其主要特点是:(1)评审成员由国际知名机构临床专家、学者组成;(2)评估的主要依据是文章的学术成就而不是文章一定要被SCI收录。专家组根据论文学术贡献度和科学价值,给予客观反映学术水平的评分(F1000因子,即Ffa得分),Ffa有三个等级分别为10分(杰出)、8分(必读)和6分(推荐)。在2010PLoS Biology发表文章中,有67篇被F1000评估,分值从15分到6分不等。

根据国际科学计量学评价的习惯做法,对评价分值进行分级处理,划分为6级(top1%,top5%,top10%, top25%,75%-50%,最末位50%),并比较在不同级别内定量与定性选择的重合率,具体结果如下表4.3所示。F1000是一个主观评价的系统,评审专家对于文章的评估出于多种角度,与定量评价必然有出入,例如某些文章F1000评分很高,但是被引次数、点击量、下载量都不高。但仍可看出,我们的评价总分前25%的文章(文章分级为1-4),与F1000的重合率还是可观的,而且随着文章级别的降低,重合率也在下降,说明本文的指标能从一定程度上反映文章质量。另外,我们发现,采用综合指标时重合率的降低趋势优于单采用被引频次时重合率的降低趋势。在文章FFa平均得分方面,虽然有小波动,但总体来说是下降的。由于参与同行评议者对分数的把握程度不同,这种分数上的波动是可以理解的。

 

 

 

 

 

4.3  本文指标、被引频次指标与F1000系统评估重合率对照表

总分百分位位置

文章分级

总篇数A

F1000收录篇数B(综合指标)

F1000收录篇数B1(被引频次)

重合率=B/A(综合指标)

重合率=B1/A(被引频次)

篇均F得分=Ffa/B(综合指标)

篇均F得分=Ffa/B1(被引频次)

X>=99%

1

3

2

2

67%

67%

11.50

11.50

95%<=X<99%

2

10

7

5

70%

50%

8.30

8.40

90%<=X<95%

3

12

6

2

50%

17%

7.00

7.00

75%<=X<90%

4

36

14

18

39%

46%

7.29

7.67

50%<=X<75%

5

61

21

24

34%

42%

7.76

7.50

X<50%

6

121

16

16

13%

13%

7.56

7.19

 5 结论

     本文利用文献利用数据(引用频次、网页点击量、下载量)、点击下载率、下载引用率,综合定量评价单篇文章,并用实例证明了该方法的可行性。数据的可获取性仍然是一个有待解决的问题。若将此方法应用于中文科技论文单篇评价时,以下数据源可作为参考,CNKI提供的下载量与引用量,某些期刊网站提供的本刊点击量。文献利用指标是一个非常重要的标度,包括多方面因素,值得更深入的探讨。

单篇论文的评价涉及更为细致的信息,以往的评价方式过于笼统,例如,本文所选择的样本,期刊影响因子、基金论文(85%左右的论文有基金资助)、收录数据库等都一致,再做评价就需要新的维度,这正是本文所提指标的意义所在。本文旨在提供论文评价的新角度,尤其是在内部特征区分度不大的情况下,丰富指标的测度范围。后期,我们也将尝试将内外部特征结合的评价指标。本文也有许多不足需改进。如指标权重的如何设定?对不同期刊、不同时间段的文章能否进行互比?要回答这些问题,需要进行更深层次的研究。其次,本文只探讨了引用频次,只考虑了影响指标的,今后还可以继续探讨这个指标的如何反映。另外,该方法可能不适合评价某些小学科的单篇论文,这些小学科的引用量、下载量、点击量都较低,对它们的评价需要另行探讨相关方法。

参考文献


*国家自然科学基金项目“发达国家科技期刊建设同经济实力、科技发展的关系暨期刊语言选择的历时性研究及其借鉴意义”(70973118)资助,负责人:武夷山

[1] SCI并未将2010年发表于《PloS Biology》的所有文章收录


[[1]]科学技术部,教育部,中国科学院等. 关于改进科学技术评价工作的决定[J.] 中国科技期刊研究,2003,14(5):482-484.

[[2]] Schubert, A. Using the h-index for assessing single Publications[J].Scientometrics,2009

78(3), 559–565.

[[3]] Kosmulski, M. Successful papers: A new idea in evaluation of scientific output[J]. Journal of Informetrics ,2011,5(3): 481-485.

[[4]] Erjia, Y. and D. Ying. Weighted Citation: An Indicator of an Article's Prestige[J]. Journal of the American Society for Information Science and Technology,2010, 61(8):1635-1643.

[[5]] D. Walker, H. Xie, K.-K. Yan, and S. Maslov, Ranking scientific publications using a simple model of network traffic[J]. J. Stat. Mech.,2007,(6).

[[6]] Su Cheng, Pan YunTao, Zheng YanNing, et al. PrestigeRank: A new evaluation method for papers and journals[J]. Journal of Informetrics. 2010,5(1):1-13.

[[7]] Fragkiadaki, E., G. Evangelidis, et al. f-Value: measuring an article's scientific impact[J]. Scientometrics,2011, 86(3): 671-686.

[[8]] Bornmann, L. and H. D. Daniel. The citation speed index: A useful bibliometric indicator to add to the h index[J]. Journal of Informetrics.2010,4(3): 444-446.

[[9]] X. Hu, R.Rousseau and J. Chen. Structural indicators in citation networks[J]. Scientometrics,

2011,91(2):451-460.

[[10]]邱均平,马瑞敏,程妮. 利用SCI进行科研工作者成果评价的新探索[J].中国图书馆学报,2007,33(4):11-16.

[[11]]吴勤. 基于引证强度的学术论文质量评价方法研究[ J]. 情报学报, 2007, 26 (4) :522-526.

[[12]]钟文一,陈云鹏. 基于引证系数的论文影响力评价方法研究[J]. 情报科学,2011,(5).

[[13]]徐芳,刘文斌,李晓轩. 等同论文数(EPN):学术论文质量评估的新指标[J]. 科研管理,2011,32(7): 150-156.

[[14]] Cho, S. R. New evaluation indexes for articles and authors' academic achievements based on Open Access Resources[J].Scientometrics .2008,77(1): 91-112.

[[15]]徐青.PloS综合》将新推出多个文章影响力指标[EB/OL]. 科学网:2009-1-20 http://news.sciencenet.cn/htmlnews/2009/1/215579.html

[[16]] N. Sombatsompop., A. Kositchaiyong., T. Markpin., S. Inrit.. Scientific evaluations of citation quality of international research articles in the SCI database: Thailand case study[J].

Scientomtrics.2006,66(3): 521-535.

[[17]]张玉华,潘云涛,马峥. 科技论文评估方法研究[J]. 编辑学报,2004,16(4):243-244.

[[18]]杨亚晶,左惠凯. 高校学术论文质量评估及其数学模型[J]. 现代情报,2005,(11):191-195.

[[19]]金晶. 跨学科领域自然科学学术论文评价方法可行性研究 [D]. 沈阳:中国医科大学,2009.

[[20]]郭继军,何钦成. 科技论文评价中的文献计量学分析 [J]. 中华医学图书馆杂志, 2001,10 (6)60-61 .

[[21]]程艳丽. 期刊及其学术论文的评价方法及思考[J]. 河南大学学报(社会科学版), 2010, 50 (2): 152-156 .

[[22]]于跃进,. 对学术研讨会论文评价的几点思考[J]. 社会科学管理与评论,2005,28(4):46-50.

[[23]]罗江琴,阳小华,马家宇. 基于Web社区的科研论文自动评价[J]. 南华大学学报(自然科学版),2007,21(1):78-81.

[[24]] 俞立平,武夷山. 学术期刊评价中标准分与原始分的比较研究——科技评价方法必须进行革命性改良[J]. 情报学报,2011,30(11):1187-1193.

 

 

 

作者简介:何星星,女,1987年生,硕士研究生,研究方向为科学计量学。

          武夷山,男,1958年生,研究员,博士生导师,研究方向:情报学、科技管理、科学计量学。

 

通讯地址:北京市海淀区复兴路15号中国科学技术信息研究所情报方法研究中心539办公室

邮编:100038

    E-mail地址:hexx@istic.ac.cn

 



https://blog.sciencenet.cn/blog-1557-608315.html

上一篇:技术开发上当老二的好处
下一篇:中国回族名人录
收藏 IP: 219.142.133.*| 热度|

19 李伟钢 陈湘明 李宁 陈小润 钟炳 任胜利 蒋迅 刘玉仙 胡泽文 许培扬 孙大柠 吕鹏辉 毛飞跃 王桂颖 何学锋 陈凯华 李泳 胡小洋 周春雷

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-4 13:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部