|||
学术界文献回顾的久远深度
How far does scientific community look back?
好不容易熬到月底放暑假,终于有时间写论文了。这几天完成了一篇关于科学文献用户数据研究的文献,与大家交流,论文全文见http://arxiv.org/abs/1307.7331
科学文献发表之后被使用的状况如何?相当长一段时间里,科学文献的显示度主要体现在参考文献列表中。例如,一篇被引高达1万次的论文,我们可能经常在其他论文中看到它的身影。事实上,许多科学计量学指标都是针对引用行为和参考文献提出来的。例如,被引次数、即时指数、以及普赖斯指数。其中普赖斯是第一个注意到文献引用的老化问题的学者。许多文献在发表若干年后,就尘封在故纸堆里,少人问津。普赖斯将最近5年的被引用的文献数量除以被引用的文献总量,计算得到普赖斯指数。
但是,除了“引用”这一传统指标之外,还有许多其他将科学文献价值定量化的指标。例如,文献的被下载次数、以及近年来在科学计量学届风头正劲的altmetrics指标。我们认为,作为科学文献被使用行为的最前端指标,文献的被下载情况如何可以为我们对它被使用情况提供一种新的评价视角。
以往关于科学论文下载次数的研究也有一些,但是这些研究关注的都是论文发表后的静态用户数据,例如对论文的被下载次数与被引用次数进行相关分析等。在这篇论文中,我们提出科学文献的动态用户数据概念。动态用户数据不仅可以提供文献在某一时间点的被下载次数总计,而且可以知道下载行为都是在什么时候发生的。例如,在论文被发表的一天内、一周内、一月内,被下载情况是如何?
当然,科学文献的动态用户数据很大程度上受制于出版商你所提供数据的可获得性。在这方面,国外有少数出版商已经走在前沿,例如PLOS、IEEE、BMJ、Nature、Springer等。
我们利用Springer的realtime平台,选择Scientometrics期刊为研究对象,昼夜不停地监测和记录该期刊论文的被下载情况。每当有一篇论文被下载时,论文的题目、作者、DOI号、下载时间等信息都会被我们记录下来。利用今年上半年收集到的一部分数据,我们做了下面的几个分析:
(1)目前大家下载的论文都是是什么时候发表的?
如图1所示,绿色的细线是每一天论文下载的情况,红色粗线是所有天的平均值。我们发现一个有趣的现象,以2009年作为一个明显的分界点,2010-2013年发表的论文被频繁下载,但是2009年及更早文献的被下载次数急剧减少。
图1 文献的发表年份与下载次数
(2)下载文献的平均寿命
文献被发表意味着问世诞生,那么文献的寿命就是截止到该文献被下载时,该文献问世的时间长度。我们用每篇文献被下载时间的日期减去该文献的发表日期。
例如某篇文献发表于2012年1月1日,该文献在2013年1月1日被下载的寿命为365天,在2013年1月2日被下载时的寿命则为366天。
某一天,假设有100篇文献共计被下载1000次,那么我们需要计算这1000次下载文献的总寿命,除以下载次数1000,得到平均寿命。
我们计算得到Scientometrics期刊每天下载文献的平均寿命约为1550天,约等于4.25年。从2013年6月往回推,大概是到2009年4月。这与图1的结果十分吻合。
(3)社交媒体让旧文献复活
我们还发现了另一个很有意思的现象,有一篇2010年7月份发表的论文,被引次数只有1次,但是在今年4月中旬突然被非常频繁地下载,如图2所示。进一步查证发现,这篇论文是一篇关于啤酒消费和论文产出量关系的letter(http://dx.doi.org/10.1007/s11192-009-0077-z)。今年4月初,有人将文章的图片贴到了社交网站figshare,并在twitter、facebook、Google plus上得到大量转发。社交媒体的广泛传播应该是这篇论文时隔将近3年之后突然间被大量下载的直接原因。
今年1月份,科学网博主黄晓磊也对另一篇类似论文进行过讨论(http://blog.sciencenet.cn/blog-111883-656590.html),Scientometrics的这篇letter提出了与Grim论文不同的观点。
图2 论文10.1007/s11192-009-0077-z的被下载次数变化
几点结论:
(1)网络时代,虽然人们可以方便地检索和查看任何年代发表的文献。但是实际上,研究者们对最近4年发表文献关注度的倾向性非常高。对于早期发表的文献,只有那些经典文献也仍然受到较多关注(我们在文中对这一点也进行了分析)。
(2)以往人们认为,大家在社交媒体上只会讨论新近发表的文献。但是,对于早期发表的文献,一旦有合适的机会,社交媒体也可以让旧文献满血复活,重新焕发生机。
不足之处:
(1)我们只研究了Scientometrics一种期刊。其他期刊、其他学科是否有同样的特征,有待进一步研究。
(2)数据收集的时间不是太长。因为Springer的realtime平台今年出现了两次较长时间的故障,所以我们只选择了4月初到6月底的数据进行分析。
在论文中,我们对于这项研究的介绍要更详细和具体。
论文全文下载:http://arxiv.org/ftp/arxiv/papers/1307/1307.7331.pdf
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 06:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社