|
生物数据学
赵秀举
摘要
为了统一数据采集、处理、分析、流动与汇交全流程和推进数据驱动的生物学知识发现,赵秀举考察生物学、数据学、生物统计学、生物信息学、生物组学和流行病学在人工智能方式和物联网局势下的发展,提出生物数据学概念、范畴和下属学科。采用基于NMR的代谢组学和转录图谱研究南瓜籽油干预代谢综合征小鼠,采用基于GC-MS和NMR的代谢组学研究高脂血症小鼠血浆9个时点动态变化,利用1479人临床试验发现NAFLD新的标志物油酸羟化油酸酯,采用时间序列方法系统预测中国短期病因特异性伤残状况;参与全球健康评价,使用贝叶斯统计、时间序列方法、高斯过程回归、三组分模型和人工智能(机器学习)等,系统估计国家领土水平的代偿期和失代偿期肝硬化负担、生育迁移和人口、预期寿命、病因特异性死亡和伤残、基于暴露-结局的危险因素等。近五年发表22篇Nature等期刊论文,其中通讯作者8篇,他引245次;提出4件生物数据治理立法建议。
1简介
赵秀举,分别于2012年1月、2007年6月、2003年7月在中国科学院、武汉大学、陕西科技大学获得分析化学(生物波谱与代谢组学)博士、细胞生物物理学与生物化学硕士、生物(发酵)工程学士。
主攻方向为发育健康营养多组学大数据,运用生物化学与分子生物学、微生物学、药理学、多组学/分析化学/工程学、统计学(数量经济学、多变量分析、流行病学/公共卫生、人工智能/深度学习)、(小、大、全样本)数据学等研究实验动物与人(个体早期)发育在健康(内分泌与代谢病尤其脂肪肝/高脂血症)与糖脂营养预防干预中的作用机制。
2背景
人工智能 (artificial intelligence,AI)1956年诞生。第三代 AI, 把第一代的知识驱动和第二代的数据驱动结合起来, 通过同时利用知识、数据、算法和算力4个要素,构造鲁棒与可解释AI, 安全、可信、可靠与可扩展,全面反映人类智能1-2。
1998年John Mashey指出,随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织难题,即大数据。2012年Viktor Mayer-Schnberger指出,数据分析将从随机采样、精确求解和强调因果的传统模式演变为大数据时代的全体数据、近似求解和只看关联不问因果的新模式3。
为了突破生物多样化数据的获取、管理、分析、挖掘、调控和知识发现等底层支撑技术,提升数据整合汇交与转化利用能力,构建生物知识图谱,推进数据驱动的生命科学知识发现及数据收益,催生面向生命健康的突破性基础理论和颠覆性新技术,赵秀举考察生物统计学、生物信息学、生物组学和流行病学在人工智能方式和物联网局势下的发展,借鉴融合管理科学与工程(数据科学与管理、评价与预测、管理统计理论与方法)、人工智能(复杂性科学、机器学习、知识表示与处理)、统计与运筹(大数据统计学、贝叶斯统计与统计应用、统计推断与统计计算)与法理学,总结自己在发育健康营养多组学大数据方面的研究结果4-26,于2020年6月提出生物数据学这一交叉学科,随后发展完善,包括其概念、范畴、下属学科和主干课程27,希望对学科建设、科学研究和人才培养贡献力量。
3学科建设
1)概念
以生物时空28-29多样性[知识图谱](度量)数据为对象,以(样本推断总体)算法(区块链、云计算)和显著性检验为手段,以安全发育健康营养为内容和目标的一门学科。生物统计学和生物信息学在人工智能方式和物联网局势下的发展。
2)范畴
生物(微生物、植物、动物、人)多样性:遗传、物种、生态、功能、景观多样性[个(群、总)体差异与共性]。
时空:不同组织器官和指标视为空间,时间是与空间有本质区别的度量。通常情况下,小于组织的细胞分子(核酸蛋白代谢物)原子量子做为变量,组织及之上的水平(地区)做为生物数据学的个体。
度量数据:图、谱、构象等原始数据离散化(数字化)而成。
生物安全:暂时按照《生物安全法》的含义,政府、社会等第三方对学科建设、科技创新等方面的(期望)要求。
发育:遗传、生(繁)殖、生长发育衰老、演化等生理基础性情形。
健康:基础、临床和预防医学等,植物保护、病虫害防治等应用性情形。
营养:食物、运动、情感调节等行为性开发型情形,生物体之间的食物链、交配、群居(共生等生物之间的关系)。
3)下属学科
基础理论:小、中、大、全样本,多时点,多组织,多平台,数据采集、处理、分析、存取、流动、销毁,确权、利益分配,标准、法规。
生物多样性:遗传、物种、生态、功能、景观多样性与生物链/圈
流行病学+组学:复杂样本基因组学、转录组学、代谢组学、蛋白质组学、表型组学。
全数据学:生态环境、卫生健康、农业、自然资源、统计行业普查数据。
预测因素学:食物药物毒物育种生产、成分、加工制造、临床和公共卫生,其它行为因素,环境职业因素,代谢因素。
生物+经济社会:生命健康经济学(异质主体适应行为内生决策与群体健康和经济社会发展预测),生物管理学(人类遗传资源,生物资源,生物实验室,疫苗预防接种,大规模人群检测)。
介观生物学:量子↔原子↔分子↔细胞↔组织↔器官↔系统↔个体↔群落的装配与过渡。
4)主干课程(本硕博衔接从中选取)
样本方面:生物多样性1(遗传)、生物多样性2(物种)、生物多样性3(生态功能景观)、[人体]生理学、组织胚胎学、免疫学、中医学(黄帝内经、伤寒杂病论)、中药学(神农本草经)、易经、植物与健康、动物与健康、微生物与健康、全球人口与健康。
变量方面:生物化学1(无机)、生物化学2(有机)、生物化学3(仪器分析)、生物物理学1(力热光电)、生物物理学2(结构)、细胞生物学、神经生物学、发育生物学、生物组学、合成生物学、生物安全法规与伦理、生物经济学、生物行业组织与政府部门。
算法方面:生物数学1(微积分)、生物数学2(代数拓扑)、生物统计学1(概率论与数理统计)、生物统计学2(一元)、生物统计学3(多元)、流行病学、算法1(C、Python、R语言)、算法2(机器学习)、知识表示、自然语言处理、数据集1(农林)、数据集2(分子结构)、数据集3(人口医药)。
在中国期刊网搜索“生物数据学”,没有明确指明“生物数据学”概念的文献,提到的是生物数据的来源、分析方法与可视化、应用等相关文献;大多和生物信息学相关,其次是信息技术在生物数据分析中的应用,再次是生物数据的挖掘。
4科研结果
针对“流行病学+组学”场景,提出发展完善生物数据学“基础理论”。主要是规范数据采集、处理、分析、流动、汇交全流程,考虑多时点、多组织和多平台使数据标准统一基础上具体场景多样化。
Ⅰ统一数据流程
1)方案设计,重点在样本。统一入组、排除、终点标准。同一个体/植株的部分/切块是1个样本。一个(亚)组的样本,具有(弱)相等/相关性。不同组别和时点(程)样本量尽量相同。样本的(主要)特征(本征值)[倒数、对数等变换后]尽量与普查(总体)的相同,不同样本随机、独立同分布。个体标识,采用无意义码。
2)数据采集,重点在变量。(高)通量检测,要求无偏[均值相同]、有效[方差最小];无批次效应的检测,优先进行;有批次效应和含时样品的检测,用标(混)样质量控制减少(消除)误差。仪器检测优先,比色法次之,试剂法最后。优先进行非靶向检测,非靶向不能满足目标时再进行靶向检测;无损检测优先,有损检测次之;具体到代谢组检测,采样先核磁共振再色谱质谱12,18,26。
3)数据处理,知识发现。离散(数字)化图、谱、构象等原始数据,需要时傅里叶变换、相位调整、基线校正、定标、去除外源信号,滤噪,数据清洗、“剪枝”,使用归一化(normalization)使样本具有可比性,使用标度(scaling)使变量有可比性,质控通过后去除质控信号,运用专业知识和人工智能归属/比对代谢物、蛋白、基因等,使用移动平均、平滑、趋势等校正时间序列数据15。
4)数据分析。信号(如化学位移、离子)做变量,进行多变量分析(变量数远大于样本量是降维的前提);分析时先无监督、后有监督或半监督方法,有监督方法中优先进行回归分析(如[正交化]偏最小二乘[O]PLS),然后聚类、分类、判别等;同时展示得分(score)和载荷(loading)图;同一代谢物(蛋白)不同信号变化趋势相反的选择特征性信号8,11,26。模型要求显著、无偏、有效、鲁棒、可解释。训练集样本过多,容易过拟合;过少,欠拟合。过拟合和欠拟合影响鲁棒性,变量选择影响可解释性。使用倾向得分匹配(PSM)和边缘结构模型(MSM)减少乃至排除时间依赖性混杂因素30。体液组织合并数据采用荟萃分析,相似效应和结构的体液组织间采用逆方差加权的固定效应模型,高异质性体液组织间采用极大似然随机效应模型31。
5)数据流动。原有数据不得直接改动,后文增加改动和说明(区块链)[原有、修正数据都流动引用,不是重新流动数据]。分己之烛光于人(《史记》),数据处理的结果建议流动、[知识]共享;国家和商业秘密在保密期过后流动共享,个体信息去标识化、匿名化后流动共享。个体敏感信息不得传播,敏感信息和个体标识的对应关系不得公开。把非隐私信息贡献给非营利组织和社会,统计结局报告受试者、产生收益时回馈贡献者,企业等营利机构回馈非营利组织,营销收入奖励、回馈研发人员。
6)数据价值。放错地方的数据构成数据垃圾(重复、缺损、废弃物),遵照3R(循环再生、减少、重组重整)选择个体。处理过程形成的数据,不流动,如果流动通常为垃圾。优先整合已有数据。试验调查前检索,本质不同且符合伦理的方可开展。根据模板(标准)整合汇交数据。
7)总结,是否实现方案设计,如何加深安全发育健康营养,为组织、自然人决(对)策、行动提供参考。
Ⅱ具体结果
前期运用代谢组NMR检测与[O]PLS分析(横向分组和纵向年龄为Y)和微阵列转录谱分析,研究大鼠肝和尿液动态变化,发现15到19周龄是代谢稳定期,个体早期发育是细胞外基质和MAPK激酶介导的癌症样生长与负调控的协调8。在此基础上,代谢组除了NMR检测还进行色谱质谱检测,对象除了实验动物还有人群队列和全数据系统分析,从发育乃至全生命周期角度研究代谢性疾病与营养干预预防,聚焦发育健康营养多组学大数据。
1)分子健康方面
以高脂血症小鼠为对象,增加GC-MS检测手段提高灵敏度和知识广度,运用基于GC-MS和NMR的代谢组学研究血浆9个时点动态变化,发现不饱和脂肪酸C16:1、C18:1、C22:6和缬氨酸是潜在的生物标志物12,18;其中NMR的工作18候选期刊封面。在动物实验研究代谢性疾病的基础上,尝试开展人群研究,并增加HPLC-MS/MS检测手段提高分辨率,以中国中部地区1479人横断面观察型临床试验为对象,运用代谢组检测、Logistic回归和ROC曲线,发现NAFLD新的高发年龄段50-60岁和新的危险因素与标志物油酸羟化油酸酯13。分子医学的研究为代谢性疾病精准防控提供参考,促进流行病学+组学融合发展。
2)健康大数据方面
以上是单个项目的研究,中国人群系统水平的健康状况如何呢?针对1990-2017年已有数据,用数量经济学时间序列方法移动平均整合自回归模型基于1990-2013年数据预测2014-2017年数据,把2014-2017年预测数据和观测数据比较,验证了模型在预测伤亡(即伤残调整寿命年,DALY)率时有效,运用这一简单有效方法系统预测中国2018-2021年短期病因特异性DALY率,发现心血管疾病(中风)是首位病因,神经障碍、肌肉骨骼疾病位次持续上升15。主导以上研究的同时,响应跨国大科学计划,加入美国西雅图华盛顿大学牵头的国际疾病负担协作组,参与全球健康评价项目,使用贝叶斯统计、时间序列方法、高斯过程回归、三组分模型和人工智能(机器学习)等方法和技术,系统估计国家领土水平的代偿期和失代偿期肝硬化负担17、生育迁移和人口14、预期寿命、病因特异性死亡和伤残、基于暴露-结局的危险因素22-23、全民医疗保险状况24和中低收入国家领土儿童营养不良状况19、呕吐所致伤亡20、口服补液疗法覆盖度21、常规麻疹疫苗接种状况25,发现总体健康改善和健康结果领先于经济社会发展的范例,在其中承担收集中国数据、部分数据分析和文稿修改;其中生育人口的工作14为ESI高被引论文。健康大数据方面的研究为中国和全球健康政策制定与可持续发展目标提供参考。
3)营养方面
以代谢综合征小鼠为对象,探索了NMR代谢组数据与基因转录组数据相结合的多变量数据整合方法,发现南瓜籽油干预代谢综合征时内质网应激和未折叠蛋白反应起作用11;在研究南瓜籽油功能和干预代谢综合征的基础上,进一步研究南瓜籽组成、功能和干预慢性炎症的机制,探索了NMR和色谱质谱相结合的方法,先NMR非靶向检测,再色谱质谱靶向检测,分层分级建立了南瓜籽组成谱,发现其油酸羟化油酸酯在树突状细胞和小鼠模型中的抗炎功能26。分子营养学方面的研究为代谢性疾病精准干预提供基础信息。
此外,就《人类遗传资源管理条例》、《生物安全法》、《生物技术研究开发安全管理条例》和《个人信息保护法》中人类遗传资源与生物安全的科学含义、生物技术研究开发应用安全与能力建设和个人信息数据分级分层管理提出立法建议,为建立完善生物安全和治理体系提供参考。
这些发育健康营养多组学大数据的研究,为认识代谢性疾病的发育源性、时空多样性与发生发展机理和发现治疗与营养干预靶标提供参考,为应对快速城镇化和老龄化提供政策建议。全生命周期个体生长发育衰老、代谢综合征时空性与营养干预策略、数据全流程统一、不同组织数据整合还有待进一步研究;大数据和人工智能局势下,面对数据孤岛和数据泄密与垄断,有必要研发跨平台汇交的新方法、提出兼顾数据隐私和共享的生物(材料与数据)安全治理机制。
参考文献(4-27,本人署名;#,并列第一;*,通讯;下划线,本人;群体作者中本人非通讯非第一作者。)
1. 谭铁牛.人工智能的创新发展与社会影响.十三届全国人大常委会专题讲座第七讲,2019. http://www.npc.gov.cn/npc/c541/201810/db1d46f506a54486a39e3971a983463f.shtml
2. 张钹,朱军,苏航.迈向第三代人工智能.中国科学:信息科学,2020,50(09):1281-1302.
3. 梅宏.大数据:发展现状与未来趋势.十三届全国人大常委会专题讲座第十四讲,2019. http://www.npc.gov.cn/npc/c30834/201910/653fc6300310412f841c90972528be67.shtml
4 赵秀举*, 王玉兰. 代谢组NMR分析与药物毒理研究.波谱学杂志, 2011; 28 (1), 1-17.
5 Xiu-Ju Zhao, Chongyang Huang, Hehua Lei, Xiu Nie, Huiru Tang, Yulan Wang*. Dynamic metabolic response of mice to acute mequindox exposure. J Proteome Res, 2011; 10 (11), 5183-5190.
6 Xiu-Ju Zhao, Fuhua Hao, Chongyang Huang, Mattias Rantalainen, Hehua Lei, Huiru Tang, Yulan Wang*. Systems responses of rats to mequindox revealed by metabolic and transcriptomic profiling. J Proteome Res, 2012; 11 (9), 4712-4721.
7 赵秀举*, 刘志国. 红曲洛伐他汀发酵条件优化及降脂功能. 中国酿造,2014; 33(1), 32-35.
8 Xiu-Ju Zhao*, Hexian Zhuo. ECR-MAPK regulation in liver early development BioMed Res Int, 2014; 2014: 850802.
9 赵秀举*.有限延伸法检测端粒酶活性.中国生物化学与分子生物学报, 2015; 31(5): 543-547.
10 丁洪波,赵秀举*. 南瓜籽油降脂模型血清脂肪酸谱的变化,食品工业科技,2015; 36(12):341-343.
11 Xiu-Ju Zhao*, Yu-Lian Chen, Bing Fu, Wen Zhang, Zhiguo Liu*, Hexian Zhuo. Intervention of pumpkin seed oil on metabolic disease revealed by metabonomics and transcript profile, J Sci Food Agri, 2017; 97(4): 1158-1163.
12 Yu-Lian Chen#, Chuan-Hao Xiao#, Zhi-Xiong Hu , Xiao-Shan Liu , Zhiguo Liu, Wei-Nong Zhang*, Xiu-Ju Zhao*. Dynamic Lipid Profile of Hyperlipidemia Mice. J Chromatogr B Analyt Technol Biomed Life Sci, 2017; 1055–1056: 165–171.
13 Xiao-Yu Hu, Yun Li, Long-Quan Li, Yuan Zheng, Jia-Hong Lv, Shu-Chun Huang, Weinong Zhang, Liang Liu, Ling Zhao, Zhuiguo Liu, Xiu-Ju Zhao*. Risk Factors and Biomarkers of Non-alcoholic Fatty Liver Disease : an observational cross-sectional population survey. BMJ open, 2018;8:e019974.
14 GBD 2017 Population and Fertility Collaborators. Population and fertility by age and sex for 195 countries and territories, 1950–2017: a systematic analysis for the Global Burden of Disease Study 2017. Lancet 2018; 392: 1995–2051.
15 Y Li, S-F Chen, X-J Dong, X-J Zhao*. Prediction of cause-specific disability-adjusted life-years in China 2018-2021: a systematic analysis. Public Health 2020;180:90-99.
16 李云,吕家红,陈淑芬,董鑫洁,赵秀举*.雄性SD大鼠视网膜发育转录组分析.武汉轻工大学学报,2019;38(06):20-26.
17 GBD 2017 Cirrhosis Collaborators. Global, regional, and national burden of cirrhosis by aetiology in 195 countries and territories, 1990–2017: a systematic analysis for the Global Burden of Disease Study 2017. Lancet Gastroenterol Hepatol. 2020;5(3):245-266.
18 Yun Li, Xiu-Ju Zhao*. NMR-based plasma metabonomics in Hyperlipidemia Mice. Anal Methods. 2020; 12, 1995 - 2001.
19 LBD Double Burden of Malnutrition Collaborators. Mapping local patterns of childhood overweight and wasting in low- and middle-income countries between 2000 and 2017. Nat Med. 2020; 26: 750–759.
20 Local Burden of Disease Diarrhoea Collaborators. Mapping geographic inequalities in childhood diarrhoeal morbidity and mortality in low-income and middle-income countries, 2000–17: analysis for the Global Burden of Disease Study 2017. Lancet 2020; 395(10239):1779-1801.
21 Local Burden of Disease Diarrhoea Collaborators. Mapping geographical inequalities in oral rehydration therapy coverage in low-income and middle-income countries, 2000–17. Lancet Glob Health 2020; 8(8):e1038-e1060.
22 GBD 2019 Viewpoint Collaborators. Five insights from the Global Burden of Disease Study 2019. Lancet 2020; 396(10258): 1135–1159.
23 GBD 2019 Risk Factors Collaborators. Global burden of 87 risk factors in 204 countries and territories, 1990-2019: a systematic analysis for the Global Burden of Disease Study 2019. Lancet 2020; 396(10258):1223-1249.
24 GBD 2019 Universal Health Coverage Collaborators. Measuring universal health coverage based on an index of effective coverage of health services in 204 countries and territories, 1990–2019: a systematic analysis from the Global Burden of Disease Study 2019. Lancet 2020; 396(10258):1250-1284.
25 Local Burden of Disease Vaccine Coverage Collaborators. Mapping routine measles vaccination in low- and middle-income countries. Nature 2021; 589: 415–419
26 Xin-Jie Dong, Jun-Yan Chen, Shu-Fen Chen,Yun Li, Xiu-Ju Zhao*. The composition and anti-inflammatory properties of pumpkin seeds. J Food Meas Charact, 2021; DOI: 10.1007/s11694-020-00783-9
27 赵秀举.生物数据学.微信公众号NC_DZRDEZ科普与通识.2020. https://mp.weixin.qq.com/s/x2xz2aOqzZ-6l4LGT2uq0w
28 Almanzar N, et al. A single-cell transcriptomic atlas characterizes ageing tissues in the mouse. Nature. 2020; 583: 590-595.
29 Schaum N, et al. Ageing hallmarks exhibit organ-specific temporal signatures. Nature. 2020; 583: 596-602.
30 Zhang XJ, et al. In-Hospital Use of Statins Is Associated with a Reduced Risk of Mortality among Individuals with COVID-19. Cell Metab 2020; 32: 176-187
31 Liu J, et al. Integration of epidemiologic, pharmacologic, genetic and gut microbiome data in a drug–metabolite atlas. Nat Med 2020; 26: 110–117.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 12:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社