starrcofly的个人博客分享 http://blog.sciencenet.cn/u/starrcofly

博文

紧急建议开发人工智能模型预测新冠状病毒感染后症状

已有 6163 次阅读 2020-1-30 03:09 |个人分类:新冠状病毒|系统分类:观点评述| 科研建议, 研究方案, 新冠状病毒, 人工智能, 病毒感染后结果预测

前言:国内爆发新型冠状(以下简称新冠)病毒肺炎,传染源从武汉蔓延到全国各地甚至世界不少国家,确诊人数指数级攀升,多省市启动一级响应警报,形势十分严峻。不少中外从事流行病研究的专家通过各种数学模型协助预测疫情发展情况,国内也已经启动专项研究针对新冠病毒疫苗和特效药物。本文针对当前形势给出科研建议和一个框架性研究方案,来自在国外相关领域的科研工作者,旨在抛砖引玉,供国内一线研究专家参考,为抗击疫情贡献自己一份菲薄的力量。

存在的紧迫问题:新冠病毒感染不同个体的症状表现不一,有的人症状十分轻微,很快康复,有的却成为重症甚至死亡,表现型差异极大。当前确诊+疑似病例早已过万,且指数级增长,但是治愈的总数字只有100+,全国各地普遍医用人力物力都不足,尤其在武汉,大量疑似患者无法得到及时诊断,大量确诊患者无法得到及时救治,因此存在一个迫需解决的问题:是否能够借助计算机人工智能算法(或机器学习算法)依据确诊患者的临床表型(问诊,物理或/和化学检验),危险因素暴露史,自身基础疾病,感染病毒特征等,1)预测临床发展症状 (轻度、中度、和重度,甚至死亡),2)预测影响临床症状的主要危险因素。日前香港大学病毒学家金冬雁教授在知识分子采访中讲[1],“据我了解核酸诊断已成瓶颈,都做不过来。诊断方面比如说结合胸部X光,用有效的办法找出那些真正的中症、重症、高危的病人,集中起来去救治,把稀缺的医疗资源留给他们。”

新冠病毒感染后的临床表现差异很可能跟一些临床数据密切相关,比如已知跟年龄关系就很大,死亡患者中最小的是36岁,多数是老人。除了依靠临床X光透射,还有一个更智能快捷的方法进行感染症状预测:如果通过分析已知临床数据,建立数学预测模型,并对公众开放,让人们可以实现自我预测,同时也可以让医院医生对患者分级。

研究意义:这个研究结果对缓解当前治疗资源普遍不足具有重要意义:

1)从已知数据来看,感染后死亡率并不高,被病毒感染的绝大部分是轻症患者,这个预测模型有助于正常人群对自身对病毒的抵御力有一个初步的判断,缓解紧张情绪;

2)可以让攀升数量最快(参见全国疫情趋势图 [2])、有感冒症状却得不到及时诊治的疑似患者进行自我评估,根据结果跟医生沟通;

3)最重要的是,可以帮助医院和医生实现分级精准医疗,从大量疑似和确诊人群中筛选出最需要救治的感染者,把有限的资源优先用于真正的重症患者。能否对资源有效利用,关系到我们能否在跟新冠病毒的战役中取得先机,从而彻底战胜这次肺炎感染。

研究方案:我们手头没有数据,无法进行具体研究,但是有条件拿到这些数据资源的一线研究人员,可以依此快速建立模型。概要如下:

(一)   研究结果:开发两个基于人工智能技术的预测模型: 

a)       模型I采用大众可以自我诊断的表型数据比如,年龄,性别,相关病史,血压,心率,抽烟与否,喝酒与否,疑似病毒暴露史等等,具体选择哪些特征表型由最终表现最好的模型决定,准确率相对低一些;

b)      模型II除了使用模型I的基础数据作为候选特征,还结合一些医院临床体检指标,比如各种生化指标,可能的传染代数,等等,用于医生精准医疗,准确率相对高一些。

c)       模型III在模型I和II的基础上,加个体病毒感染滴度,病毒分子多态或病毒亚型(病毒分子序列)。

(二)   产品形式:在荣之联iCloud(或其他云平台)建立人工智能病毒感染临床预后模型,

a)       为模型I建立网页表单,用于普通公众通过网页输入相关数据进行自我评估;

b)      为模型II或模型III建立后台分析模块以及通用API接口,给专科医生提供疑似和确诊患者分级治疗和预后判断。

(三)   遗传数据:有可能一些常用的临床表型数据就有足够高的准确率判定临床预后。如果有条件,遗传数据(以SNP基因型数据为主)的关联分析除了用于找出关键遗传变异位点辅助预后判断以外,更有助于发现更多的药物研发靶点。

a)       ACE2是新冠和SARS病毒的共同攻击人类的靶基因[3, 4],位于X染色体,根据Rossa等发表文章[5],ACE2基因的多态位点跟SARS感染后症状没有发现显著相关。但该结果只代表ACE2基因跟SARS的关系,考虑到感染后临床预后表现有可能跟免疫强弱有关,其他免疫相关基因应该也在考虑之中,具体基因列表可以参考InnateDB [6]。此外,病毒攻击过程往往有众多基因参与,所有已知的参与病毒攻击的基因都应该考虑进来,参见GeneOntology term: viral life cycle [7]。

b)      基因型关联分析除了要考虑年龄、性别、人种亚种等常见相关因素以外,还要排除一些特定强干扰因素,比如,病毒变异度,要同时测量待测基因和新冠病毒的基因型数据,判定病毒的变异程度。

(四)   机器学习:机器学习分析部分可以采用常规分析流程:样本分Training,Validation,和Independent test组;数据归一化预处理;算法选择;特征筛选;最优参数选择;多个机器学习算法预测整合。也可以考虑采用深度学习算法。

(五)   模型优化:随着临床数据的增多,逐步优化和增加模型的预测能力。

(六)   医疗数据保密:所有临床输入数据整理后首先确定一个随机种子数字并记录下来,然后去除ID信息并通过乱序排列打乱患者记录次序,采用新的虚拟ID整合各个临床数据库的信息。双盲设计:整理数据着不参与分析,分析者只能面对去除ID后乱序以后的数据。

本文作者:目前在耶鲁大学从事复杂遗传疾病计算生物学科研,之前在中国科学院微生物研究所从事真菌生物信息学研究三年。

相关团队:耶鲁大学医学院精神科专家以及美国NCI资深生物信息学专家。我们的团队在2018年国际Dream Challenge竞赛中获得两项第一名 (OmicsEngineering 团队): 
https://www.synapse.org/#!Synapse:syn15665609/wiki/583248 
https://www.synapse.org/#!Synapse:syn15665609/wiki/583249

产权申明:用人工智能预测感染人群的临床结果的数据分析,同时也寻找被感染个体临床预后极差的危险因素。成果归国内合作单位,我们可提供技术支持(电子邮件: xinyu.zhang@yale.edu)。

 

参考文献

1.          http://zhishifenzi.blog.caixin.com/archives/220451#more.

2.          https://3g.dxy.cn/newh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0

3.          Xu, X., et al., Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its spike protein for risk of human transmission. SCIENCE CHINA Life Sciences, 2020.

4.          Letko, M.C. and V. Munster, Functional assessment of cell entry and receptor usage for lineage B β coronaviruses, including 2019-nCoV.bioRxiv, 2020.

5.          Chiu, R.W.K., et al., ACE2 Gene Polymorphisms Do Not Affect Outcome of Severe Acute Respiratory Syndrome. Clinical Chemistry, 2004. 50(9): p. 1683-1686.

6.          https://www.innatedb.com/redirect.do?go=resourcesGeneLists.

7.          http://www.informatics.jax.org/vocab/gene_ontology/GO:0019058.




https://blog.sciencenet.cn/blog-604918-1216092.html

上一篇:生物信息学数据分析与皇帝的新装
下一篇:新冠状病毒感染后症状模拟分析过程与结果简述
收藏 IP: 130.132.173.*| 热度|

1 刘学武

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 01:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部