博文

什么在影响着同行评议和引文指标在评价学术论文上的差异精选

已有 14668 次阅读 2015-6-3 23:31 |个人分类:科学计量学|系统分类:科研笔记

什么在影响着同行评议和引文指标在评价学术论文上的差异？

杜建

引文分析和同行评议是目前科研评价的两种主流方法，两者之间的互补性应用已得到认可，但目前尚未见针对两者之间差异的影响因素的系统研究。而明确同行评议与被引指标之间差异产生的具体原因，揭示推荐和引用在评价文献影响力上的微观差异对于完善科研评价体系具有重要意义。Faculty of 1000（F1000）由世界范围内同行提名的超过10,000名基础科学家和临床医生对文献进行评审和推荐，是目前最常用的、受到广泛认可的生物学和医学领域单篇文献专家推荐系统。荷兰莱顿大学Waltman和Costas (2014)对被F1000推荐的全部共计132,662篇论文的推荐速度研究显示，80%的论文在正式出版前2个月至出版后4个月期间即得到了专家推荐，不到10%的文献出版后6个月以后被专家推荐，可见与被引的滞后性相比，推荐具有及时性。F1000从专家评议角度对全球生物医学领域有重要科学价值的文献进行推荐和评论，为分析零被引和低被引文献的潜在价值提供了途径和方法。

近年来，F1000推荐（F1000因子，FFa Scores）与被引次数的关系受到国内外文献计量学领域的关注，我们将这些相关性分析纳入的样本量、学科领域以及主要结论总结于表1。

表1 有关F1000因子与被引次数相关性的研究文献

作者	样本量	学科领域	主要结论
Allen et al. (2009)[[i]]	687	生物医学	比较Wellcome Trust基金评审专家对文献的评论、F1000推荐和被引次数的关系，整体上三者呈显著正相关，但被引次数对于评价单篇论文或小部分论文的质量和重要性上不足。
Wardle (2010)[[ii]]	1530	生态学	F1000推荐不能有效预测其被引次数，可能与生态学领域专家不足有关
Li & Thelwall (2012)[[iii]]	1397	基因组学与遗传学	F1000因子与WoS、GoogleScholar和Scopus被引次数相关系数分别为0.303、0.295、0.300，p<0.01
宋丽萍和王建芳(2012) [[iv]]	2000	免疫学和生物信息学	生物信息学、免疫学文献F1000 因子与被引次数相关系数为0.415、0.440，p<0.001
刘春丽和何钦成(2013)[[v]]	1229	生物信息学与计算生物学	F1000因子与Google Scholar被引次数相关系数为0.311，p<0.05
Bornmann & Leydesdorff (2013)[[vi]]	125	细胞生物学、免疫学	F1000因子与Incites的7个引文指标相关系数为0.1-0.5，p<0.007
Mohammadi & Thelwall(2013)^{[^[vii]]}	877	临床医学	2007年、2008年发表的文献F1000因子与被引次数的相关系数为0.300、0.383，p<0.01
Waltman & Costas (2014)^{[^[viii]]}	132,662	生物医学	F1000最高推荐分值与被引次数相关系数为0.24，p<0.05，弱于被引次数与影响因子的相关性
宋丽萍,王建芳,王树义(2014)[[ix]]	1300	心理学、生态学	生态学、心理学文献F1000因子与被引次数相关系数分别为0.336、0.274，p<0.001

这些实证研究所涉学科多为基础研究领域，纳入样本量多在1000~2000篇文献，也都考虑到了被引的时滞性，选择距当前研究3-4年之前的论文作为样本。无论基础研究领域、临床研究领域还是Waltman和Costas将全部F1000推荐论文纳入的结果，根据Cohen (1988)对相关系数等级的界定，F1000因子与被引次数的相关系数基本维持在0.3上下，属中低度正相关。那么，到底是什么在影响着两种评价方式之间的差异。

我们试图从研究层次（或叫研究活动，英文research level）和文献类型两个角度探讨。

数据：

• 考虑到不同学科领域的引用行为差异，纳入6个相近的学科领域、3对基础-临床，包括：肿瘤生物学、肿瘤学；心血管生物学、心血管疾病；神经科学、神经疾病

• 发表：1999-2010年（给最新的论文留出3-4年的被引时间）；被引：1999-2014年

• 共28,254篇，匹配Scopus被引次数。

结果：

（1）不同的研究活动对推荐和被引之间的差异无影响。

研究活动分类依据：

研究活动（researchlevel）

–Basic Research

• 仅由BiologyScientist推荐

–Clinical Research

• 仅由Clinicians推荐

–Mixed Research

• 同时受到BiologyScientist和Clinicians的推荐

当然也会存在Biology Scientist推荐Clinical Research；Clinicians推荐Basic Research的情况。但我们从文献类型、发表期刊和关键词三个层面均证明了，我们的分类中，Basic Research类绝大多数都是基础研究内容，Clinical Research都是临床医学的研究内容；Mixed Research都是跨基础-临床，或具有转化特征的研究内容。

结果表明，不管是用Citations，还是FFa Scores进行评价，都是Mixed Research类论文的表现优于Basic Research类，再优于Clinical Research类，也就是说，不同研究活动不会显著造成同行评议和被引指标之间的差异。

（2）不同的文献类型对推荐和被引之间的差异有显著影响。

F1000专家在推荐论文时，不仅赋予其分值，写明推荐理由，也会根据文章的研究内容和创新类型赋予一个或多个标签，如新发现、能够改变临床实践、重要确认、争议性结论、新药靶点、技术进步等，这种对科学研究类型的分类为分析文献被荐和被引之间差异提供了思路、途径和方法。基于F1000的论文推荐分值和Scopus被引次数数据（28254篇），分析不同的研究类型对推荐分值和被引次数差异的影响。根据F1000因子与被引次数百分位数分布，将论文分为4组，即双高型、双低型、高推荐-低被引型和低推荐-高被引型。

对照研究结果发现：

①标识为“新发现”、“确认”、“技术进步”、“临床试验”、“综述评论”和“系统综述/meta分析”的论文得到了相对高的被引但却很少被同行推荐，多为“确认型研究”和“证据型研究”；

②标识为“有趣假设”、“争议”、“反驳/颠覆”、“提供新药靶点”、“能改变临床实践”的论文受到专家的高度推荐但被引次数却相对较少，多为“变革型研究”和“转化型研究”。

引用行为体现出学术共同体内作者之间的知识关系，与引文指标相比，同行评议指标更适合于评价转化型研究、变革型研究或高风险研究，即一项研究所具有的可能颠覆现有范式的潜能，以及对临床实践的适用性，通过实践者的评判才能得以更好地体现。

根据托马斯•库恩的科学范式概念，创新型研究可分为两类，一是常规科学中的创新性研究，即在现有研究范式下对已有研究的补充和发展，推动科学的累积式渐进，对应着本文所述的确认型研究或证据型研究；二是导致科学革命的创新性研究，即通常是对原有研究范式的颠覆，属于具有革命性的科学突破，促成科学革命的发生，对应着本文所讨论的变革型研究和转化型研究。

我们建议在应用文献计量指标进行学术评价时，可区分3种类型的研究文献，①循证医学研究文献，②变革型研究或高风险研究文献，③转化型研究文献，后两种文献更适合于通过同行评议反映其真正研究价值。

本文发表于JASIST，http://onlinelibrary.wiley.com/doi/10.1002/asi.23548/abstract

感谢武夷山老师、唐小利老师对本文的辛苦付出。

英文摘要如下：

F1000 recommendations were assessed as a potential data source for research evaluation, but the reasons for differences between F1000 Article Factor (FFa scores) and citations remain unexplored. By linking recommendations for 28,254 publications in F1000 with citations in Scopus, we investigated the effect of research level (basic, clinical, mixed) and article type on the internal consistency of assessments based on citations and FFa scores. The research level has little impact on the differences between the 2 evaluation tools, while article type has a big effect. These 2 measures differ significantly for 2 groups: (a) nonprimary research or evidence-based research are more highly cited but not highly recommended, while (b) translational research or transformative research are more highly recommended but have fewer citations. This can be expected, since citation activity is usually practiced by academic authors while the potential for scientific revolutions and the suitability for clinical practice of an article should be investigated from a practitioners' perspective. We conclude with a recommendation that the application of bibliometric approaches in research evaluation should consider the proportion of 3 types of publications: evidence-based research, transformative research, and translational research. The latter 2 types are more suitable for assessment through peer review.

参考文献：

[[i]] AllenL, JonesC, DolbyK, et al. Looking forlandmarks: the role of expert review and bibliometric analysis in evaluatingscientific publication outputs[J]. Plos One, 2009, 4(6):e5910.

[[ii]] Wardle DA. Do 'Faculty of 1000' (F1000)ratings of ecological publications serve as reasonable predictors of theirfuture impact?[J]. Ideas in Ecology and Evolution, 2010, 3, 11-15.

[[iii]] Li, X, ThelwallM. F1000, Mendeley andtraditional bibliometric indicators. In E. Archambault, Y. Gingras & V.Lariviere (Eds.), The 17th International Conference on Science and TechnologyIndicators, 2012, 541-551. Montreal, Canada: Repro-UQAM.

[[iv]]宋丽萍,王建芳. 基于F1000与WoS的同行评议与文献计量相关性研究[J].中国图书馆学报,2012,38(2):62-69.

[[v]]刘春丽,何钦成.不同类型选择性计量指标评价论文相关性研究——基于 Mendeley、F1000和Google Scholar三种学术社交网络工具[J].情报学报,2013,32(2):206-212.

[[vi]] BornmannL, LeydesdorffL. The validation of(advanced) bibliometric indicators through peer assessments: A comparativestudy using data from InCites and F1000[J]. Journal of Informetrics, 2013, 7(2):286-291.

[[vii]]Mohammadi E, Thelwall M. Assessingnon-standard article impact using F1000 labels[J]. Scientometrics, 2013, 97(2):383-395

[[viii]] Waltman L, Costas R.F1000 Recommendationsas a Potential New Data Source for Research Evaluation: A Comparison With Citations[J].Journal of the American Society for Information Science andTechnology, 2014, 65(3): 433–445

[[ix]]宋丽萍,王建芳,王树义.科学评价视角下F1000、Mendeley与传统文献计量指标的比较[J].中国图书馆学报,2014,(4):48-54

转载本文请联系原作者获取授权，同时请注明本文来自杜建科学网博客。
链接地址：https://blog.sciencenet.cn/blog-335532-895351.html

上一篇：营养学领域引文经典
下一篇：精准医学，重在落地

收藏 IP: 125.39.114.*| 热度|

当前推荐数：10 推荐人：曹聪 许培扬 武夷山 王贤文 黄永义 陈辉 魏瑞斌 贺飞 闫钟峰 biofans

该博文允许注册用户评论请点击登录评论 (4 个评论)

IP: 218.241.213.* 回复 | 赞 +1 [2]赫荣乔 2015-6-4 13:20: 评价论文的最终价值，还是由相关应用领域和转化领域，如果临床、医药等领域说了算吧。从理论到理论的分析，有纸上谈兵的嫌疑。; 杜建回复赫荣乔：谢谢您的评论和建议。目前，专家评议和引文指标是科研评价的两种主要方式，两者尽管整体上呈现正相关，但差异也非常明显。我们就是想初步探讨是哪些因素在影响着这种差异。发现分别用两个指标对不同的文献类型，或创新类型进行评价时，出现差异较大。 ①标识为“新发现”、“确认”、“技术进步”、“临床试验”、“综述评论”和“系统综述/meta分析”的论文得到了相对高的被引但却很少被同行推荐，多为“确认型研究”和“证据型研究”；②标识为“有趣假设”、“争议”、“反驳/颠覆”、“提供新药靶点”、“能改变临床实践”的论文受到专家的高度推荐但被引次数却相对较少，多为“变革型研究”和“转化型研究”。我们建议在具体开展科研评价时，需要将不同的文献类型（或创新类型）区分出来。谢谢评论。
2015-6-4 14:321 楼（回复楼主）赞 +1 | 回复

IP: 114.111.167.* 回复 | 赞 +1 [1]许培扬 2015-6-4 11:33: F1000专家评阅属于文献导读，一般只写300多字，与论文发表前的同行评审是不一样的，因此这样的评阅意见有一定的局限性。建议作者分析引证分析与替代计量分析做相关性分析。; 杜建回复许培扬：谢谢许老师的建议。F1000的专家评阅属于出版后评议，而实际上被引次数也是一种出版后评议。将同一篇论文发表后这两种评议方式结合起来进行比较，能够有助于找出专家评议和被引指标之间差异有哪些因素在影响。也只是初步探讨。您提出的 “引证分析和替代计量分析” 是现在和未来的一个方向，实际上目前国外也有学者将F1000视为替代计量指标数据源。
2015-6-4 14:281 楼（回复楼主）赞 +1 | 回复

1/1 | 总计:2 | 首页 | 上一页 | 下一页 | 末页 | 跳转

返回顶部

杜建

扫一扫，分享此博文

全部作者的精选博文

全部作者的其他最新博文

• [转载]读《蒲慕明：对科学哲学的一些看法》的体会

杜建分享 http://blog.sciencenet.cn/u/adully2010

博文

什么在影响着同行评议和引文指标在评价学术论文上的差异精选

当前推荐数：10 推荐人：曹聪 许培扬 武夷山 王贤文 黄永义 陈辉 魏瑞斌 贺飞 闫钟峰 biofans

该博文允许注册用户评论请点击登录评论 (4 个评论)

杜建

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

杜建分享 http://blog.sciencenet.cn/u/adully2010

博文

什么在影响着同行评议和引文指标在评价学术论文上的差异 精选

当前推荐数：10 推荐人： 曹聪 许培扬 武夷山 王贤文 黄永义 陈辉 魏瑞斌 贺飞 闫钟峰 biofans

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

杜建

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

什么在影响着同行评议和引文指标在评价学术论文上的差异精选

当前推荐数：10 推荐人：曹聪许培扬武夷山王贤文黄永义陈辉魏瑞斌贺飞闫钟峰 biofans

该博文允许注册用户评论请点击登录评论 (4 个评论)