||
公共数据的妙用
武夷山
2026年3月23日出版的《自然》杂志发表澳大利亚昆士兰大学化学与分子生物科学学院Rhys H. Parry研究员的文章How I squeeze fresh science from public data。请DeepSeek翻译此文我有权限看到的部分,我修改。原文见
https://www.nature.com/articles/d41586-026-00434-x。
我如何从公共数据中弄出新科学成果
对于经费紧张和处于职业生涯早期的研究人员来说,存档数据集可以催生新科学。
我并非一开始就打算靠别人的数据来发展事业。但在我第一次进行二手数据分析的五年后,我仍在这样做。
2018年,在我于澳大利亚布里斯班的昆士兰大学攻读博士课程期间,我在实验室的埃及伊蚊细胞系中发现了一种先前未知的病毒。昆虫细胞常常携带持续存在且未被注意的病毒感染,因此这一发现并不完全令人惊讶。但这种新病毒的特性尚未被阐明。我们发现它不能感染哺乳动物细胞,并且出人意料的是,它能适度降低登革病毒的复制。这引起了我们的注意——能够干扰人类病原体的昆虫特异性病毒,对于理解和潜在阻断蚊子传播疾病的方式可能具有重要意义。
我的博士生导师、分子病毒学家Sassan Asgari兴奋地引导我去查看我们实验室的其他数据集,并鼓励我扩大搜索范围。他想知道这种病毒在我们实验室及其他实验室的埃及伊蚊细胞中存在的普遍程度。幸运的是,来自世界各地的蚊子研究人员提供了转录组数据集。不久,我就下载并检查了大约3000个数据集,并追踪了该病毒在全球的进化历史。
随后,在我博士课程即将结束时,我接触到了Alexander Khromykh实验室的数据。Khromykh是昆士兰大学的病毒学家,我目前仍在该校工作。他研究病毒感染期间非编码RNA在细胞外囊泡中的作用。用新视角重新审视他实验室已发表的数据时,我发现了一些意想不到的现象:病毒似乎以一种前所未见的方式在切割细胞RNA。那次重新分析引出了一封自我介绍性的电子邮件,接着是一次交谈,然后促成了双方的一项合作。如今,Alex和我基于那个初步发现,成为一项国家资助项目的共同研究者。
对于处于职业生涯早期的研究人员来说,已经发表的数据是一个黄金机会——一种以极低甚至零成本为发表论文和申请经费生成数据的方式。要做到这一点,只需要一个问题、一台安装了R或Python编程语言的笔记本电脑,以及愿意从新角度审视旧数据。
根据我的经验,大多数研究人员都很高兴知道他们的数据正以这种方式被使用。我发出的一些邮件促成了合作,还有一些邮件让作者与我分享了原始发表论文中未包含的元数据。有时,原作者拥有你无法具备的样本或设备来验证结果;他们在那边做一个快速实验,就可能证实某种关联,从而成为你下一个基金申请的初步数据。
数据是免费的
我挖掘的那类基因组数据尤其适合二次分析。由美国国立卫生研究院下属的国家生物技术信息中心管理的序列读段档案库(SRA)拥有超过50PB的数据,其中大部分被存储后很少再次使用。2022年,一个名为Serratus的项目将这些海量读数与病毒参考基因组进行比对,识别出数千个新的病毒序列,将已知的RNA病毒多样性提升了一个数量级。这些大规模的努力展示了当二次数据分析被认真对待时,会开辟多大的可能性。
这种模式在科学界普遍存在。许多临床试验数据集、生态调查和医学影像档案都在线可用,且时机成熟、可供挖掘。已发表的分析往往只是触及了数据所能揭示信息的表层。
资助机构和出版商要求研究人员存档数据,以确保结果的可重复性和可验证性。但可重复性并非存档数据的唯一用途;每个数据集都包含着超出其生成者所发现范围之外的关联。新方法涌现,新假说出现,研究领域的变迁方式可以让旧数据焕发新生。我们有机会为现有数据带来新的视角,发现新的关联,并在理想情况下验证它们。
最有趣的重新分析往往涉及将起来不同类型的数据结合——比如蛋白质组学与转录组学,或卫星图像与调查数据。从你理解其基础科学原理的数据集开始,但要能提出原作者未曾提出的问题。不过,首先要检查元数据。如果只有费力侦查方能理解相关的系统、处理方式、时间点、重复实验和平台,那么重新分析这些数据才值得付出努力。
并非所有数据集或分析都能提供新发现。我下载过数千个毫无结果的数据集。但搜索的成本很低,而且阴性结果可能与阳性结果一样具有信息量。一次执行良好的二次分析,像任何其他类型的科学产出一样,也可以发表,可以被引用,并被其他研究者用作初步数据。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-31 20:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社