CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

深度学习与生物医疗 精选

已有 14680 次阅读 2018-9-14 11:06 |系统分类:观点评述

 这期《自然·生物技术》中有一篇谈深度学习的文章[1],题目是“Deep learning in biomedicine”,作者是来自多伦多的Brendan J Frey等人。深度学习现在人们谈论的很多,在生物,医疗,甚至物理领域都有不少应用。之前在biorxiv上有一篇综述,叫“Opportunities And Obstacles For Deep Learning In Biology And Medicine[2]。参考文献比较多,但写的并不算很好。NBT的这篇相对更清晰一些,这里大概介绍一下。

深度学习在基因组学中的应用

测序数据是非常适合应用深度学习的。大概有两个原因,第一是数据量非常大。深度学习相对于传统机器学习的一个最大特点是训练样本越多,最终表现越好(而不是到达一个平台)。当然测序数据维度也很大,相应也会给学习过程带来一些困难,需要谨慎处理。第二是深度学习适合对基因型与表型之间的关系建模。传统分析手段包括机器学习一般依靠一些简单法则,比如效应线性可加,或者满足特定模型。深度学习通过多层网络,可以有效描述基因型与表型之间的非线性。

应用深度学习的例子有:预测外显子剪切的SPIDEX [3];预测转录因子和RNA结合蛋白作用位点的DeepBind [4];预测DNase超敏感性的Basset [5];预测转录因子结合和组蛋白修饰的DeepSEA [6]DanQ [7];预测CpG岛甲基化的DeepCpG [8];预测转录起始位点的TITER [9]

这方面的一个挑战是如何将深度学习应用到GWAS数据上来,如何提高统计效力以及提供机制性的解释,因为GWAS研究的是很多SNP微小的作用。作者的设想是可以利用深度模型来对分子表型进行第一步的建模,然后在此基础上加入更多层网络,用来囊括生物调控网络乃至于生理过程方面的信息。

深度学习在药物发现中的作用

作者这里主要关注如何预测候选药物对于靶标的作用,也就是如何建立定量的结构活性关系模型(QSAR)。主要的复杂性来自于蛋白质结构预测,目前没有很好的算法能够从序列出发,预测蛋白质结构(尽管这方面也有一些深度学习相关的工作)。一个办法就是绕过这个难题,只对小分子建模,从小分子的化学结构出发来预测它能否作用于某种蛋白。类似方法也被应用到预测分子毒性上,比如肝毒性[10]。如果我们假设相似的分子可以作用于相似的蛋白,就可以建立多重任务模型。在2012年默克举办的分子活性预测比赛中,参赛者被要求对15个蛋白靶标建立QSAR模型,最终获胜队伍就使用了单任务以及多重任务深度网络。

最终的障碍仍然是对蛋白结构进行预测。最近一个工作利用了三维卷及网络对蛋白和小分子结构进行了建模,使得深度学习网络可以应用于新的蛋白[11]。这种深度学习方法可能和已有的分子动力学建模形成互补。

深度学习在医疗影像中的应用

这大概是现在做的最好的,也是最没有争议的部分了。深度学习起家就是靠ImageNet图像识别。现在FDA已经通过了肿瘤追踪以及视网膜病变相关的深度学习应用。作者着重谈了两点,第一是如何看待黑箱问题,也就是很多时候深度网络像一个黑箱子,人们不知道它是怎么工作的。一种策略是可以通过敏感性分析找到对结果有影响的区域(或者特征)。第二是作者认为深度学习的表现可能被人的表现限制了,也就是没有很好的ground truth。很多时候影像学家的观点会被穿刺取样推翻,这时可能应该用穿刺结果作为训练目标。

深度学习的优势

第一是可以在多重尺度建模,也可以考虑不同尺度,甚至不同类型的数据。比如低层次的特征可以是DNA序列,在更高层次的网络就可以考察mRNA剪切,调控蛋白结合等等。

第二是中间层变量可以用来处理相关任务,也就是所谓的转移学习。比如一个跟mRNA二级结构有关的特征可以用在预测蛋白-RNA相互作用上,也可以用来预测microRNA调控。

第三是深度学习的网络有不同的结构用来处理不同问题,包括传统的全连接模型,用来处理图像或者序列数据的卷积网络,以及用来处理有长程相互作用的recurrent network。在非监督学习中,可以利用autoencoder代替传统的主成分分析。

深度学习的局限性

首先就是诟病比较多的可诠释性(Model interpretability),作者这里提出了一个新的概念,透明度(Transparency)来部分取代可诠释性。但论证也有一些问题,可以参考原文。另一个问题就是因果性。如果两个变量高度相关,那么机器学习会将它们混淆起来,这部分还是要依靠专家意见。

 

[1] Deep learning in biomedicine, doi:10.1038/nbt.4233

[2] http://rsif.royalsocietypublishing.org/content/15/141/20170387

[3] Xiong, H.Y. et al.RNA splicing. The human splicing code reveals new insights into

the  genetic  determinants  of  disease. Science 347,  1254806  (2015).

[4] Alipanahi,  B.,  Delong,  A.,  Weirauch,  M.T.  &  Frey,  B.J.  Predicting  the  sequence

specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol.

33,  831–838  (2015). 这是本文作者的一篇文章,附录值得一读。

[5] Kelley,  D.R.,  Snoek,  J.  &  Rinn,  J.L.  Basset:  learning  the  regulatory  code  of  the

accessible  genome  with  deep  convolutional  neural  networks. Genome  Res. 26,

990–999  (2016).

[6] Zhou,  J.  &  Troyanskaya,  O.G.  Predicting  effects  of  noncoding  variants  with  deep learning-based  sequence  model. Nat.  Methods 12,  931–934  (2015).

[7] Quang,  D.  &  Xie,  X.  DanQ:  a  hybrid  convolutional  and  recurrent  deep  neural  network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).

[8] Angermueller,  C.,  Lee,  H.J.,  Reik,  W.  &  Stegle,  O.  DeepCpG:  accurate  prediction  of single-cell DNA methylation states using deep learning. Genome Biol. 18, 67 (2017).

[9] Zhang,  S.,  Hu,  H.,  Jiang,  T.,  Zhang,  L.  &  Zeng,  J.  TITER:  predicting  translation

initiation  sites  by  deep  learning. Bioinformatics 33,  i234–i242  (2017).

[10] https://pubs.acs.org/doi/abs/10.1021/acs.jcim.5b00238




https://blog.sciencenet.cn/blog-927304-1134750.html

上一篇:最近的杂感
下一篇:人工智能与42:从AlphaFold谈起
收藏 IP: 66.30.113.*| 热度|

4 李剑超 李久煊 郑永军 黄永义

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 11:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部