博文

数据审编（data curation）——数据到知识的关键一步

已有 12645 次阅读 2015-4-27 09:17 |个人分类:科研笔记|系统分类:观点评述| 大数据, 生物信息学, 知识发现, 数据编审

第八届国际生物审编（biocuration）大会在北京友谊宾馆召开（4月23日-4月26日），周六（4月25日）晚上遗传学会的生物大数据分会成立。近些年，生物医学方面的文献数量飞速增长，文献中研究结果的“可信度”良莠不齐，给基于文献的审编工作带来很大挑战；当然，更大的挑战来自于大规模、高通量组学数据及其生物样本注释数据的审编、注释。

从事数据分析和模型构建的研究人员都知道，“好”的数据意味着成功的一半甚至一大半，特别在生活在数据爆炸的年代，谁掌握了数据谁就掌握了先机。但好的数据不是从天上掉下来的，在机器学习领域，有一些“闲人”，整出不少测试数据集，有图片的、视频的、语音的、文本的等等，各种各样，极大的推动了相关领域的研究和学术交流。生物医学领域，特别是近年来烧钱烧得不亦乐乎的大规模组学数据，却缺乏经过细致审编、注释数据，这显然影响了这些数据的价值，阻碍了研究人员之间的学术交流。一些国际上大的生物医学数据计划的开展，如ENCODE、ICGC/TCGA、CCLE等，已经在大规模组学数据、样本信息的审编和数据共享上开展了大量的工作，但在实际的使用过程中仍需要具有相当程度专业知识和实践经验。从原始数据到经过审编的数据还有很长的路要走。

可以说，数据审编是大数据到知识发现的关键一步。信息学科的研究人员通常看重算法或方法的创新、组学的研究人员着重数据产生和分析，而生物医学的研究人员更关注新的发现。客观的方法评价、可重复的新发现都必须基于完整注释的数据。近些年，DREAM（http://dreamchallenges.org/）正在尝试用community challenge的方式推动相对客观的方法评价体系。但除了方法评价这个直接目标以外，真要实现community challenge的价值，提供大量经过专业研究人员审编的数据非常关键，否则得出的结果无法用于指导后续的转化医学研究。

行军打仗，粮草优先。生物信息学研究，数据优先（注：少量纯理论研究除外）。踏踏实实做好数据审编，对后续方法学研究和科学发现非常关键。持续的更新和数据共享是保证数据编审质量和生命力的关键。好的数据库对提升研究人员在本领域的影响力有着重要的作用（大家都得用你的数据）。然而从现实角度来看，数据编审却处于比较尴尬的地位，特别是持续维护的经费和人力问题。相对于图像、视频、语音等大众化的数据，生物医学数据审编需要大量专业知识背景和实践经验的积累，即使广泛采用自动注释技术，最终的核心审编工作都需要“人”来完成，然而由于缺乏资金支持和人才上升通道，没有人愿意从事这方面的工作。在数据大爆炸的今天，相信越来越多的人会认识到数据审编是实现知识发现的关键步骤，更多的资金会投入到生物医学数据的审编研究和应用上来。

我们课题组正在开展大规模肿瘤组学数据的整合分析，数据审编和分析方法两方面的研究工作都在同步进行，我在组会上反复跟研究生们强调数据审编的重要性：很多好的工作，花在数据上的时间可能要远远超过数据分析和算法研究上的时间，虽然在最后的论文中数据审编只有一小段文字。相信在他们自己的研究过程中会更加深刻的体会到数据审编（data curation）在生物信息学研究中的地位。

转载本文请联系原作者获取授权，同时请注明本文来自古槿科学网博客。
链接地址：https://blog.sciencenet.cn/blog-407531-885519.html

上一篇：近期肝癌大规模组学研究进展
下一篇：LRAcluster：基于低秩近似的多组学数据快速降维与聚类分析

收藏 IP: 166.111.130.*| 热度|

当前推荐数：1 推荐人：甄一松

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

古槿

扫一扫，分享此博文

jgu的个人博客分享 http://blog.sciencenet.cn/u/jgu

博文

数据审编（data curation）——数据到知识的关键一步

当前推荐数：1 推荐人：甄一松

该博文允许注册用户评论请点击登录评论 (2 个评论)

古槿

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

jgu的个人博客分享 http://blog.sciencenet.cn/u/jgu

博文

数据审编（data curation）——数据到知识的关键一步

当前推荐数：1 推荐人： 甄一松

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

古槿

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：甄一松

该博文允许注册用户评论请点击登录评论 (2 个评论)