jgu的个人博客分享 http://blog.sciencenet.cn/u/jgu

博文

数据审编(data curation)——数据到知识的关键一步

已有 12645 次阅读 2015-4-27 09:17 |个人分类:科研笔记|系统分类:观点评述| 大数据, 生物信息学, 知识发现, 数据编审

第八届国际生物审编(biocuration)大会在北京友谊宾馆召开(4月23日-4月26日),周六(4月25日)晚上遗传学会的生物大数据分会成立。近些年,生物医学方面的文献数量飞速增长,文献中研究结果的“可信度”良莠不齐,给基于文献的审编工作带来很大挑战;当然,更大的挑战来自于大规模、高通量组学数据及其生物样本注释数据的审编、注释。


从事数据分析和模型构建的研究人员都知道,“好”的数据意味着成功的一半甚至一大半,特别在生活在数据爆炸的年代,谁掌握了数据谁就掌握了先机。但好的数据不是从天上掉下来的,在机器学习领域,有一些“闲人”,整出不少测试数据集,有图片的、视频的、语音的、文本的等等,各种各样,极大的推动了相关领域的研究和学术交流。生物医学领域,特别是近年来烧钱烧得不亦乐乎的大规模组学数据,却缺乏经过细致审编、注释数据,这显然影响了这些数据的价值,阻碍了研究人员之间的学术交流。一些国际上大的生物医学数据计划的开展,如ENCODE、ICGC/TCGA、CCLE等,已经在大规模组学数据、样本信息的审编和数据共享上开展了大量的工作,但在实际的使用过程中仍需要具有相当程度专业知识和实践经验。从原始数据到经过审编的数据还有很长的路要走。


可以说,数据审编是大数据到知识发现的关键一步。信息学科的研究人员通常看重算法或方法的创新、组学的研究人员着重数据产生和分析,而生物医学的研究人员更关注新的发现。客观的方法评价、可重复的新发现都必须基于完整注释的数据。近些年,DREAM(http://dreamchallenges.org/)正在尝试用community challenge的方式推动相对客观的方法评价体系。但除了方法评价这个直接目标以外,真要实现community challenge的价值,提供大量经过专业研究人员审编的数据非常关键,否则得出的结果无法用于指导后续的转化医学研究。


行军打仗,粮草优先。生物信息学研究,数据优先(注:少量纯理论研究除外)。踏踏实实做好数据审编,对后续方法学研究和科学发现非常关键。持续的更新和数据共享是保证数据编审质量和生命力的关键。好的数据库对提升研究人员在本领域的影响力有着重要的作用(大家都得用你的数据)。然而从现实角度来看,数据编审却处于比较尴尬的地位,特别是持续维护的经费和人力问题。相对于图像、视频、语音等大众化的数据,生物医学数据审编需要大量专业知识背景和实践经验的积累,即使广泛采用自动注释技术,最终的核心审编工作都需要“人”来完成,然而由于缺乏资金支持和人才上升通道,没有人愿意从事这方面的工作。在数据大爆炸的今天,相信越来越多的人会认识到数据审编是实现知识发现的关键步骤,更多的资金会投入到生物医学数据的审编研究和应用上来。


我们课题组正在开展大规模肿瘤组学数据的整合分析,数据审编和分析方法两方面的研究工作都在同步进行,我在组会上反复跟研究生们强调数据审编的重要性:很多好的工作,花在数据上的时间可能要远远超过数据分析和算法研究上的时间,虽然在最后的论文中数据审编只有一小段文字。相信在他们自己的研究过程中会更加深刻的体会到数据审编(data curation)在生物信息学研究中的地位。



https://blog.sciencenet.cn/blog-407531-885519.html

上一篇:近期肝癌大规模组学研究进展
下一篇:LRAcluster:基于低秩近似的多组学数据快速降维与聚类分析
收藏 IP: 166.111.130.*| 热度|

1 甄一松

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 03:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部