||
按:2012年6月出版的Nature Biotechnology杂志刊登了一篇题名为“My data are your data”的文章,介绍了数据共享的未来趋势,并分析了数据共享面临的挑战,本文介绍其主要内容。
数据共享的未来趋势及面临的挑战
生命科学领域拥有成千上万个数据库,300多个术语系统和120多种交换格式。在目前数据推动的大科学时代,不断增加的数据共享是科学进步的核心,并吸引着来各方关注。而且,数据共享领域也出现一些新的趋势,主要表现在共享的数据形式更加多元化,共享的层次更加深入。然而,要实现更广泛、更深入的数据共享,需要克服技术障碍和人的影响因素。
1数据共享的必要性
共享在科学界一直是美德。虽然许多科学家接受研究数据共享的想法,认为需要共享研究数据,但是很少人将其付诸实践。随着生命科学研究产生各种类型的大数据集,传统的通过HTML和PDF格式在网上传送研究论文的共享方法即将过时。另一方面,数据也拥有更长的尾巴1:假设和争论、元数据、方法、软件代码和工具、多媒体、工作流程和模式等。这些挑战激发了一些新的数据共享行动计划,例如Biosharing项目、其他几个非营利项目和商业项目,从而使共享更易实现、更受欢迎(见表1)。
专家们认为,共享是必需的。如果不共享数据和方法,会存在重复研究的风险,也会错过一些新的发现。
表 1目前重要的数据共享行动计划
项目名称 |
共享功能 |
共享趋势 |
商业项目 |
|
|
DNAnexus |
拥有NCBI序列阅读档案(SRA),用于下一代测序平台中产生的原始序列数据分析 |
在谷歌云端建立用户界面和镜像(mirrors)300-400TB的SRA数据(无医学数据),提供拥有知识产权的基于云的分析与可视化工具,这些工具可共享给用户 |
Illumina基础空间 |
Illumina的平台用户产生的数据共享、分析与储存 |
基础空间(BaseSpace),位于亚马逊AWS云设施中的基因组学数据共享空间,目前处于β-版测试阶段,需要用户注册。 |
Life Technologies Ion Torrent Community |
用户门户,共享数据、协议和代码 |
共享门户Ion Torrent社区要求注册 |
完整基因组学 (Complete Genomics ) |
提供测序服务、数据管理与分析,结果共享 |
下游分析与数据共享服务,进入软件服务提供商的市场 |
基因数据 |
对流程用户和能力用户(power-users),软件提供了共享功能 |
定位于制药外包和公私合作项目,如欧洲的InnoMedPredTox |
基因组探索 |
基于分析工具建立的共享功能 |
随着消费者共享行为改变,越来越少人关注数据储存。需要共享原始数据的分析结果 |
ID商务解决方案 |
拥有数据分析与整合功能的软件与咨询公司,InforSense Suite |
肺基因组学研究联盟扩大了其名为ClinicalSense的数据集,用于其数据分析与共享门户 |
非商业联盟 |
描述 |
项目 |
Pistoia联盟 |
制药与生命科学公司组成的合作团队,探索竞争前数据共享 |
启动了如下方面的数据共享项目:下一代测序数据、生物标记物交换标准 |
生物IT联盟 |
微软公司创建,现在是非营利机构 |
创建数据模型与传播标准,在转化医学领域实现数据共享 |
非营利性行动计划 |
|
|
生物共享(Biosharing) |
生命科学领域的国际机构形成网络,旨在数据共享与标准化 |
开发名为“调查-研究-分析(ISA)共享空间”的标准,以优化数据共享 |
crowdlabs |
计算工作流程的库,提供高性能计算服务 |
使用VisTrails,这是一个开源的工作流程系统 |
Galaxy |
基于网络和云的开源测序分析工具 |
Galaxy Pages让用户看见、重复使用和拓展工作流程 |
myExperiment Virtual Research Environment |
英国南安普敦、曼彻斯特和牛津三地的大学之间的合作 |
共享工作流程的平台,用户可以共享工作流程,或保持私人所有 |
美国NCBI |
提供在线数据库和分析工具等资源 |
|
Sage Bionetworks |
由默克制药公司前研究人员创建的非营利项目,聚焦于共享科学 |
|
W3C语义网 |
是万维网(W3C)的一部分 |
拥有致力于开发生命科学数据共享的医疗与生命科学语义网兴趣小组 |
Workflow 4 Ever |
基于网络的资源储存与共享方法与工作流程 |
拥有基因组学和天文学领域的合作伙伴,与“在分散的计算设施上共享大规模科学模拟的可互操作的工作流程(SHIWA)”相互补充 |
共享网络与数据库 |
|
|
生物门户(BioPortal) |
由NIH国家生物医学计算中心下属的国家生物医学本体中心运营的一个数据库 |
储存了300多个生物医学领域的控制词表和本体,用户可以下载这些本体,并与其他人共享 |
概念网络联盟 |
由荷兰生物信息中心实施,致力于语义网的应用 |
建立统一、用户友好的文本挖掘在线平台 |
Cytoscape |
分析和可视化生物网络的开源软件 |
开发者开发一个可用于共享网络模型的数据库 |
Datacite |
非营利的国际图书馆联盟 |
提供基于数字对象标识符(DOI)挖掘的数据共享服务 |
Force11 |
一个由编辑人员、出版商、科学家、图书馆馆员、研究资助者组成的团队 |
成立于2011年,旨在探索可用于共享、创建和交流学术知识的新方法 |
基因编码项目 |
加州大学圣克鲁兹分校与曼彻斯特大学联合实施的数据收集行动计划 |
利用软件工具扫描期刊论文中的基因组学标识符,将其绘成图,并与人类基因组相关联 |
来源:Nature Biotechnology杂志研究,Frost & Sullivan公司的数据。
2数据共享的未来趋势
随着语议网、云计算等技术的发展,未来的数据共享将更加多元化、更加深入。
2.1多种形式的数字化
未来的科学数据共享可能与现在的做法完全不一样。有专家认为,知识不应仅限于在纸上交流,还应该以电子/数字化形式传播。2011年由科学家、图书馆馆员、研究资助者以及几个出版社的编辑组成的Force 11团队致力于“语义增强的多媒体数字出版”。该团队在2011年秋天出版的“宣言”中建议“反思学术期刊的单元和形式”,让出版从简单的电子化复制印版期刊出版物转向数字化复合体。他们正在朝“网络化的知识目标(networked knowledge objects)”方向努力,已经为数据、方法和元数据增加语音。
2.2将科技文献计算化访问
一些研究人员正在督促出版商将科技文献进行计算化访问(computational access),这样机器就可以比人更快地获取和共享研究结果。例如,2009年,加州大学圣克鲁兹分校与曼彻斯特大学联合启动实施的“基因编码”项目,旨在进行这方面的探索。
2.3共享研究的“特殊调料”——研究过程的数据、软件和工作流程
针对目前共享的研究信息仍然有限、难以从这些信息中获取重复某项研究所需的所有要素的问题,有些数据共享团队已经开始在论文中共享研究过程中的数据、软件和工作流程。
目前,计算生物学家通过门户网站共享软件工具和代码,同时,他们还创建通常安装在云中的网络服务。美国约翰·霍普金斯大学医学院的Salzberg和他的小组在一篇比较目前重要基因组组装程序的论文中共享了研究中使用的软件和数据,将软件方法的详细信息即所需要的“特殊调料”包含其中,虽然可能会相当复杂,但是可以运行这些组装程序并重现他们的研究结果。
2.4共享网络模型
目前,系统生物学研究人员已经交换了基因与蛋白相互作用网络的模式、序列和软件代码,但还不能存储正在运行的假设推论。
为了探索交换模式的新途径,加州大学圣叠哥分校开发分析和可视化生物网络软件Cytoscape的研究人员Trey Ideker与总部位于西雅图的非营利组织“智者生物网络(Sage Bionework)”合作鼓励共享。由默克公司前研究人员Stephen Friend和Eric Schadt于2009年成立的Sage Bionetworks是一个开放不同类型数据和网络模型的库。另外,Ideker的团队正致力于以Cytoscape为基础的网络模型共享数据库。
3数据共享面临的挑战
3.1关注共享标准
2012年1月,50多名来自30个学术和商业机构的研究人员就数据集描述标准达成一致意见。由研究人员和出版商组成的“BioSharing行动计划”启动了“调查-研究-分析共享空间(Investigation-Study-Assay Commons,简称ISA共享空间),有望优化不同数据库之间的数据共享。
3.2当管线(pipeline)断裂——需要保持系统的稳定性,加强系统维护
要实现同时共享分析步骤,期刊论文必须能够链接到远程计算和数据资源。由不同团体和机构运营的本地和远程计算资源中的工作流程混合了管理功能。如果超越其节奏,工作流程的管线将断裂:站点上的软件崩溃、网络服务改变数据格式、储存失误导致网络服务断线。一个本可共享的、可重复的工作流程就会变得不能共享和不可重复。曼彻斯特大学的计算机科学家Carole Goble的团队已经建立了许多网络的生命科学共享平台,他们开发的Workflow 4 Ever平台,通过维护工作流程来延长方法共享的使用寿命。
3.3面临的其他技术障碍
研究人员在论文中包含网络模型时,其中许多网络模型不可避免地被塞进了出版物的在线补充部分。而仅有非常少的部分人会发现这些额外的补充材料,甚至更少的人会引用这些材料。
在出版的论文中同时共享方法的“特殊调料”数据和元数据仍然是存在巨大的问题,其中之一是如果要审稿人来监管这部分工作,会大幅度增加审稿人的工作量。为此,埃默里大学计算生物学家James Taylor与Galaxy平台合作开发开源序列分析工具,这种工具能下载或在云上使用的开源序列分析软件。基于Galaxy的Galaxy Pages,能共享数据和工作流程的分析步骤,避免增加审稿人的工作量。
3.4人的因素需要
让科学家们转变观念,让他们认识到产生并分享数据和方法的重要性。要达到这一目标,一方面可以采取加强宣传与培训等措施,另一方面,共享平台的设计和构建中,可以利用一些技术方法,使共享更容易实现。
共享平台的构建者要考虑到科学家们对数据共享可能产生的恐惧,创造“避风港”似的环境,同时也让科学家们围绕共享物建立“信誉经济(a reputation economy)”,以便他人看到什么人分享了多少。同时,美国Dana-Farber 癌症研究所的Quackenbush及其团队为美国美国肺癌基因组学研究联盟设计数据协调与分析中心、Goble的团队设计myExperiment平台等的实践经验表明,数据共享平台需要保持一定的透明度,同时允许参与的科学家们有一定的私人空间。另外,Goble团队为欧洲微生物系统生物学协会(SysMOSEEK)创建了人和机器可读的电子数据表,该电子数据表的单元格中嵌入了BioPortal的控制词汇表,规范化分类,便于数据录入和读取,从而更好地鼓励共享。
此外,还需要与各利益相关方加强合作。例如“基因编码”项目运行两年多来,但受到出版商的冷遇。
阮梅花整理自:http://www.nature.com/nbt/journal/v30/n6/full/nbt.2243.html
来源:中科院国家科学图书馆《生命科学监测快报》2012年第13期
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 18:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社