黄晓磊(Huang Xiaolei )分享 http://blog.sciencenet.cn/u/book Nature is teacher | 诚实点,简单点,专业点 | 微博:weibo.com/naturethinker

博文

论文数据共享,你守规矩了吗? 精选

已有 12474 次阅读 2011-11-12 09:02 |个人分类:科学那些事儿|系统分类:科研笔记|关键词:数据共享,论文,数据库| 论文, 数据库, 数据共享

发表论文是每个研究人员至关重要的事情,证据翔实的高水平论文就像是研究人员的名片。科学发展到今天,科学界越来越认识到数据共享对于促进重大科学发展和科研文化的重要性。逐渐有更多的研究人员在发表论文时,尤其是在高水平杂志发表论文时,会将论文正文篇幅所不能包括的一些重要的相关结果和原始数据共享。这种共享一般有几种形式,或作为论文附件材料(supplementary material OR supplementary file),或上传到公共数据库,或直接将数据提供给索要数据的同行。

 

论文附件的形式对很多研究人员来说应该不会陌生,为了让论文获得发表,我们要提供尽可能多的证据,而论文正文篇幅有限,所以有时会将部分结果或数据作为附件材料提供。我个人觉得论文附件提供原始数据的比重可能并不大,更多的是一些相关分析结果。

 

将原始数据上传到公共数据库共享,生命科学领域中最有名的例子应该是GenBank http://www.ncbi.nlm.nih.gov/genbank/),或者说是International Nucleotide Sequence Database Collaboration的三个数据库:GenBankDNA DataBank of Japan (DDBJ)European Molecular Biology Laboratory (EMBL)。现在,从分类学、进化生物学、生态学,到分子生物学和医学研究,应该鲜有人不知道这几个数据库(或其中一个)。只要你的论文用到了序列数据,论文发表后将序列数据提交到GenBank应该是一个常识。我不太清楚其他领域的情况,比如化学或物理学领域,也应该有类似的公共数据库和“行规或规矩”,请其他领域的同行也举些例子。

 

虽然数据共享在很多研究人员看来应该是常识和基本义务,但每个人执行起来却并不是那么回事儿。2006PLoS Biology有一项有趣的研究,作者们想看看到底有多少比例的研究人员没有将他们的序列数据提交到GenBank等数据库。他们选择了6种高水平期刊(Evolution, Molecular Biology Evolution, Nature, PNAS, Science),这些期刊都有明确的政策,要求论文作者将序列数据提交至公共数据库。经过对20062月开始6期文章进行分析,作者们发现情况并不乐观。这些期刊都发表了并未提供序列号的文章,比例分别从3%20%;并且其中3%15%的文章根本就没有将序列提交到GenBank。针对如何让这些没有共享序列的论文将其序列共享,该文作者也提供了2个建议。一个比较严厉的建议是,在相关序列数据共享前,期刊应该禁止这些文章作者投稿;另一个建议是,期给这些文章作者一个月的期限,如果这个期限内作者没能提供序列号,则期刊将这些文章从其网站移除(这个建议基于现在大多研究者依靠网络获取参考文献),直到作者提交序列号。

 

2009PLoS ONE也发表了一项类似的调查研究,该文作者选择了两种有明确数据共享政策的PLoS医学期刊(PLoS MedincePLoS Clinical Trials)上的十篇论文作为跟踪对象,并通过email的方式向论文作者索要论文相关数据。他们的调查结果更让人惊讶:仅仅有一个作者提供了数据。或许有人会说这项调查研究的取样太小,也或者医学论文的作者对数据共享有更保守的态度,但10%的共享率还是着实让人吃惊。这个例子说明,即使期刊有明确的政策要求作者共享数据,或许也不能收到理想的效果,甚至差得还挺远。

 

回到序列数据的例子,虽然论文发表时将序列提交到公共数据库已经是一个常识,也是编辑部对作者基本的要求。但不同期刊采取的方式有些不同,有的期刊要求投稿时必须包含序列号(只有序列数据已经提交到数据库才会有序列号),而有的期刊则允许作者在论文发表前再提供序列号。记得有一次,我跟一个同事同时投稿。我们俩的稿子都用到了DNA序列数据,投稿前我已经将序列提交到GenBank并获得了序列号;而同事说他还没有提交,因为他要投的期刊也会将尚没有序列号的文章送审。我每次都会在投稿前将序列提交,所以我并不知道生物学领域不需要在送审前提交序列号的期刊是否常见。

 

或许,这里就是那个漏洞。这种期刊政策的差别会使得有些期刊的作者在论文发表时并没有提供序列号(也没有将序列提交到公共数据库)。如果期刊政策是硬性的,都规定论文送审前必须提供序列号,这个问题应该可以解决。对于其他类型的数据也如此,没有共享,则不送审,这样的政策理论上来说应该很好执行。

 

开放获取的PLoS期刊、ScienceNature|PNAS等基本上都要求作者有义务将论文相关数据共享,并有相应的期刊政策,越来越多的期刊也都开始有这样的政策。不管期刊采用哪种政策,论文相关的数据应该共享给同行,起码,你的论文应该能够被感兴趣的同行检验。

 

数据共享从理论上来说应该是研究人员的基本义务,但去实践的时候,则有很多的分歧,这仍是个值得讨论的问题。 或许我们可以问的第一个问题是:论文数据共享,你守规矩了吗?你是不是上面两篇研究中提到的那些研究人员。第二个问题是:论文数据共享,你愿意守规矩吗?

 

Noor M.A.F. et al. (2006) Data sharing: how much doesn’t get submitted to GenBank? PLoS Biology, 4: e228.

Savage C.J., Vickers A.J. (2009) Empirical Study of Data Sharing by Authors Publishing in PLoS Journals. PLoS One, 4: e7078.


http://blog.sciencenet.cn/blog-111883-507146.html

上一篇:秋天的故事
下一篇:美国实验室的漫画

13 武夷山 刘用生 张玉秀 张天翼 许培扬 覃开蓉 赵星 曾新林 涂勇 赵凤光 clz1989 z0376 ddsers

发表评论 评论 (23 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-12 08:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部