|||
第八届国际生物审编(biocuration)大会在北京友谊宾馆召开(4月23日-4月26日),周六(4月25日)晚上遗传学会的生物大数据分会成立。近些年,生物医学方面的文献数量飞速增长,文献中研究结果的“可信度”良莠不齐,给基于文献的审编工作带来很大挑战;当然,更大的挑战来自于大规模、高通量组学数据及其生物样本注释数据的审编、注释。
从事数据分析和模型构建的研究人员都知道,“好”的数据意味着成功的一半甚至一大半,特别在生活在数据爆炸的年代,谁掌握了数据谁就掌握了先机。但好的数据不是从天上掉下来的,在机器学习领域,有一些“闲人”,整出不少测试数据集,有图片的、视频的、语音的、文本的等等,各种各样,极大的推动了相关领域的研究和学术交流。生物医学领域,特别是近年来烧钱烧得不亦乐乎的大规模组学数据,却缺乏经过细致审编、注释数据,这显然影响了这些数据的价值,阻碍了研究人员之间的学术交流。一些国际上大的生物医学数据计划的开展,如ENCODE、ICGC/TCGA、CCLE等,已经在大规模组学数据、样本信息的审编和数据共享上开展了大量的工作,但在实际的使用过程中仍需要具有相当程度专业知识和实践经验。从原始数据到经过审编的数据还有很长的路要走。
可以说,数据审编是大数据到知识发现的关键一步。信息学科的研究人员通常看重算法或方法的创新、组学的研究人员着重数据产生和分析,而生物医学的研究人员更关注新的发现。客观的方法评价、可重复的新发现都必须基于完整注释的数据。近些年,DREAM(http://dreamchallenges.org/)正在尝试用community challenge的方式推动相对客观的方法评价体系。但除了方法评价这个直接目标以外,真要实现community challenge的价值,提供大量经过专业研究人员审编的数据非常关键,否则得出的结果无法用于指导后续的转化医学研究。
行军打仗,粮草优先。生物信息学研究,数据优先(注:少量纯理论研究除外)。踏踏实实做好数据审编,对后续方法学研究和科学发现非常关键。持续的更新和数据共享是保证数据编审质量和生命力的关键。好的数据库对提升研究人员在本领域的影响力有着重要的作用(大家都得用你的数据)。然而从现实角度来看,数据编审却处于比较尴尬的地位,特别是持续维护的经费和人力问题。相对于图像、视频、语音等大众化的数据,生物医学数据审编需要大量专业知识背景和实践经验的积累,即使广泛采用自动注释技术,最终的核心审编工作都需要“人”来完成,然而由于缺乏资金支持和人才上升通道,没有人愿意从事这方面的工作。在数据大爆炸的今天,相信越来越多的人会认识到数据审编是实现知识发现的关键步骤,更多的资金会投入到生物医学数据的审编研究和应用上来。
我们课题组正在开展大规模肿瘤组学数据的整合分析,数据审编和分析方法两方面的研究工作都在同步进行,我在组会上反复跟研究生们强调数据审编的重要性:很多好的工作,花在数据上的时间可能要远远超过数据分析和算法研究上的时间,虽然在最后的论文中数据审编只有一小段文字。相信在他们自己的研究过程中会更加深刻的体会到数据审编(data curation)在生物信息学研究中的地位。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社