武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

预测哪些论文可能成为高被引论文 精选

已有 10465 次阅读 2014-5-5 06:24 |个人分类:科学计量学研究|系统分类:观点评述

预测哪些论文可能成为高被引论文

武夷山

 

技术预测与社会变革(TFSC)杂志20141月号发表汤森路透的高级分析师Ilya V. Ponomarov与其合作者共同撰写的文章,Predicting highly cited papers: A method for early detection of candidate breakthrough(预测高被引论文:潜在突破性成果的早期识别)。

他们用被引总数和月度被引次数作为“科学影响力”的替代变量。

研究流程如下:

1.      考察一个发表了潜在突破性成果的论文(简记为BP)的已知集合;

2.      针对每一篇BP,找出一篇类似论文,形成更大的集合;

3.      根据累计引用量,确定一个突破性成果被引次数的门限值;

4.      识别高被引论文之被引行为的时变特征;

5.      选择能够描述这一行为的理论模型;

6.      利用论文发表后半年至两年的早期引用曲线来拟合、外推两年之后的被引量;

7.      将预测值与实际值进行对比。

具体说来,他们从分子生物学和遗传学领域挑出了11BP论文。选择在本领域被引次数的前1作为门限值。

他们用两种模型进行拟合,一个是线性模型,一个是非线性模型。

考察两种情景。一个是在发表后半年内至少被引用了5次的文献集合中来寻找潜在突破性成果,这样做,能一下子筛掉98.5%的论文,但也将后来被证明为BP论文的59%给排除在外了,即排除掉了51BP论文中的30篇。第二种情景,将在发表后1年内至少被引用了10次的文献集合给整理出来,此时,可以将97.7的论文筛掉,识别出来的BP论文的准确率达到94%(51篇中识别出48篇)。

线性模型所预测出的被引次数比实际次数要少,而非线性模型所预测出的被引次数比实际次数要多,即前者低估,后者高估。

 

博主:该文所采用的方法,肯定识别不出睡美人文献。

 

该文摘要如下:

Abstract

Scientific breakthroughs are rare events,and usually recognized retrospectively. We developed methods for early detection of candidate breakthroughs, based on dynamics of publication citations and used a quantitative approach to identify typical citation patterns of known breakthrough papers and a larger group of highly cited papers. Based on these analyses, we proposed two forecasting models that were validated using statistical methods to derive confidence levels. These findings can be used to inform research portfolio management practices.

 

 




http://blog.sciencenet.cn/blog-1557-791404.html

上一篇:智慧与恶----读《人的元素》
下一篇:《中国的智慧》摘抄(三)

38 张良辉 许培扬 杜建 陈小润 强涛 秦逸人 王桂颖 LetPub编辑 刘桂锋 杨正瓴 徐晓 李学宽 王贤文 庄世宇 俞立平 薛宇 刘玉仙 孙学军 张南希 钟炳 章成志 赵凤光 彭真明 赵美娣 杨学祥 李泳 黄秀清 李永丹 胡泽文 刘宇 魏瑞斌 崔雷 周春雷 许海云 曹聪 贡金涛 JIANHUN yunmu

该博文允许注册用户评论 请点击登录 评论 (29 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-20 23:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部