我心飞扬分享 http://blog.sciencenet.cn/u/sunluky 世界如此多彩,值得探索

博文

浅谈生物医学大数据(一) 精选

已有 18975 次阅读 2017-7-2 11:52 |系统分类:科研笔记

   昨天在第五届江苏省大数据技术学术年会上做了一个报告,题名为“生物医学大数据的处理与分析”。报告前一星期将自己的研究工作和想法做了整理,籍此机会跟与会的老师和科研工作者们进行了分享和交流。由于内容篇幅和撰写时间原因,这里将报告内容分成几部分与大家分享。

   “大数据”是近年来在国内外都比较火的一个词,其影响力之大,已经渗透至各行各业,而大数据在生命科学领域即被重定义为“生物医学大数据”[1]、“健康医疗大数据”、“医学大数据”、“生物大数据”或诸如此类。比较而言,我更喜欢用“生物医学大数据”。对于生物医学大数据的成因,我认为主要有内外两方面:内因是生命本质的复杂性,包括生命内部运行机理的复杂、疾病病理的复杂等;外因可总结为生物/医学领域信息的数据化,这得益于高通量生物技术的发展、医疗信息化以及信息技术(IT)的发展等。最典型是二代测序技术(如RNA-Seq)的成本下降及其应用普及,使得数据呈现爆炸性增长趋势。生物医学大数据的产生来源多样,涵盖临床医疗、公共卫生、医药研发、医疗市场、个体行为与情绪研究、遗传学与组学研究、社会人口学、环境科学、健康网络与媒体等[2]。针对不同生物/医学问题,通过多种生物/医学技术产生的生物医学大数据经过处理和分析,其结果还应回归生物/医学问题,对其进行解释或是帮助解决。生物医学大数据的应用涉及组学研究及不同组学间的关联研究、生物标志物识别和药物研发、未知病原筛检和可疑致病微生物发现、生物监测与公共卫生监测、人群疾病谱研究、健康管理、个性化医疗、精准医学等[2]。


   生物医学大数据重要性之大,与人类健康密切相关,因此许多国家/地区也相继实施了相应的大数据计划或在大数据计划中确定了生物医学大数据的研究任务,如美国的大数据研究和发展计划(2012年3月,https://bigdatawg.nist.gov/pdf/WhiteHouse_big_data_press_release.pdf)、中国科技部的人口与健康科学数据共享平台(2010年)[3]、上海推进大数据研究与发展三年行动计划(2013年7月,http://www.stcsm.gov.cn/gk/ghjh/333008.htm)等[2]。2016年6月24日,国务院办公厅发布《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,对健康医疗大数据的建设工作给出了指导意见。国家卫生计生委按照国务院的要求,积极推动全民健康信息化和健康医疗大数据应用发展,取得了明显成效,确定了1+7+X的发展模式和框架(http://www.jcdm.org.cn/Articles/ZiXunCon.aspx?ID=7276)。国家卫生计生委统计信息中心设有健康医疗大数据办公室。国家健康医疗大数据中心的第一批试点省市包括福建省的福州、厦门、江苏省的南京和常州。在这种大趋势之下,清华大学、北京大学、中科院生物物理所、中科院北京基因组所等高校院所也相继成立了健康大数据中心。为了实施健康大数据中心及产业的建设工作,国家已筹建三大医疗大数据集团公司:中国健康医疗大数据产业发展集团公司、中国健康医疗大数据科技发展集团公司、中国健康医疗大数据股份有限公司。十二届全国人大五次会议审议批准的《政府工作报告》也对2017年政府工作做出了全面部署,将保障和改善民生视为政府的重要使命之一,对推进健康中国建设和深化医药卫生体制改革等工作进行了部署安排,进一步明确了卫生计生工作的方向和年度重点任务。由此可见,“生物医学大数据”已成为国家战略的一部分,其重要性不言而喻。


   刚接触到“生物医学大数据”这个名词,您或许会问,为什么生物医学数据可以称为“大数据”?那我们就参照大数据的一般性特点来看看。大数据的第一个特点是数据量大(Volume),即产生和存储的数据量规模巨大或海量。随着新型生物/医学技术应用的普及,生物医学数据的量增长迅速,例如,单一个样本的人体基因组和转录组(多组织多时间点)测序数据量会分别超过100和30GB(基于3 GB人类基因组和10~30倍测序深度)[4],而人口、物种之多,实验和方法之多样,必然会导致大数据的产生。二是大数据的多态性(Variety),即数据的类型和本质多样,而生物个体和数据类型的多样性、异质性等恰好对应了这一特点。三是大数据的时效性(Velocity),可理解为数据产生和处理的速率满足行业增长和发展的需求。对互联网大数据而言,其处理对时效性的要求比较高。而我认为现在的生物医学大数据的时效性并不十分高,但某一些领域(如个性化医疗、精准医疗等),可能需要比较高的时效性,而前提是能够实时产生生物医学大数据。四是大数据的易变性(Variability),意为处理和管理数据过程中出现的不一致性,这种情况也会发生在生物医学大数据上,主要是这些数据获取的方式不固定,即使是同一种方法,由于环境、操作等因素,也会造成数据样本间的系统性变化。五是大数据的准确性(Veracity),即要求数据质量高,否则会是“garbage in garbage out”。我相信不断提高更新的生物和医疗技术能够为数据质量提供保证,而后期的一些数据过滤和修正方法也能起到一定的辅助作用。


   生物医学大数据的问题和解决思路会有哪些呢?一、数据的标准化和规范化。解决思路是建立统一的数据标准,不同数据库之间能够实现一致性的接口,实现互通。二、数据存储和管理。需要利用各种类型的数据(如传统的关系型数据库、NoSOL等),实现结构化、非结构化、半结构化的生物医学大数据的存储、管理、索引、提取等。三、数据处理和分析。需要借助生物信息学、云计算、人工智能等方法和平台。四、数据/方法的共享。可以借助云计算、云存储等先进技术和方法。五、生物医学大数据的相关人才。这显然需要通过院校教育进行专门性的培养。当前这种复合型人才缺口很大。对于以上问题,其中部分解决方案可以参考我的一篇综述文章[5],而报告的其他内容我也会在后面的博文中进行介绍。(文中叙述如有不妥之处,还请批评指正)


参考文献:
1.Fusaro, V.A., et al., Biomedical cloud computing with Amazon web services. PLoS computational biology, 2011. 7(8): p. e1002147.
2.王波, et al., 生物医学大数据:现状与展望. 中华流行病学杂志, 2014. 35(6): p. 617-620.
3.姜吉栋, 赵辉, and 刘润达, 科学数据共享平台网站中的信息组织——以国家人口与健康科学数据共享平台为例. 信息资源管理学报, 2012(4): p. 52-56.
4.宁康 and 陈挺, 生物医学大数据的现状与展望. 科学通报, 2015(z1): p. 534-546.
5.孙磊, et al., 生物医学大数据的云计算解决方案. 电子测量与仪器学报, 2014. 28(11): p. 1190-1197.



https://blog.sciencenet.cn/blog-216721-1064147.html


收藏 IP: 120.44.97.*| 热度|

5 王宗海 陆泽橼 孟佳 zjzhaokeqin shenlu

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 05:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部