|
这期《自然·生物技术》中有一篇谈深度学习的文章[1],题目是“Deep learning in biomedicine”,作者是来自多伦多的Brendan J Frey等人。深度学习现在人们谈论的很多,在生物,医疗,甚至物理领域都有不少应用。之前在biorxiv上有一篇综述,叫“Opportunities And Obstacles For Deep Learning In Biology And Medicine”[2]。参考文献比较多,但写的并不算很好。NBT的这篇相对更清晰一些,这里大概介绍一下。
深度学习在基因组学中的应用
测序数据是非常适合应用深度学习的。大概有两个原因,第一是数据量非常大。深度学习相对于传统机器学习的一个最大特点是训练样本越多,最终表现越好(而不是到达一个平台)。当然测序数据维度也很大,相应也会给学习过程带来一些困难,需要谨慎处理。第二是深度学习适合对基因型与表型之间的关系建模。传统分析手段包括机器学习一般依靠一些简单法则,比如效应线性可加,或者满足特定模型。深度学习通过多层网络,可以有效描述基因型与表型之间的非线性。
应用深度学习的例子有:预测外显子剪切的SPIDEX [3];预测转录因子和RNA结合蛋白作用位点的DeepBind [4];预测DNase超敏感性的Basset [5];预测转录因子结合和组蛋白修饰的DeepSEA [6]和DanQ [7];预测CpG岛甲基化的DeepCpG [8];预测转录起始位点的TITER [9]。
这方面的一个挑战是如何将深度学习应用到GWAS数据上来,如何提高统计效力以及提供机制性的解释,因为GWAS研究的是很多SNP微小的作用。作者的设想是可以利用深度模型来对分子表型进行第一步的建模,然后在此基础上加入更多层网络,用来囊括生物调控网络乃至于生理过程方面的信息。
深度学习在药物发现中的作用
作者这里主要关注如何预测候选药物对于靶标的作用,也就是如何建立定量的结构活性关系模型(QSAR)。主要的复杂性来自于蛋白质结构预测,目前没有很好的算法能够从序列出发,预测蛋白质结构(尽管这方面也有一些深度学习相关的工作)。一个办法就是绕过这个难题,只对小分子建模,从小分子的化学结构出发来预测它能否作用于某种蛋白。类似方法也被应用到预测分子毒性上,比如肝毒性[10]。如果我们假设相似的分子可以作用于相似的蛋白,就可以建立多重任务模型。在2012年默克举办的分子活性预测比赛中,参赛者被要求对15个蛋白靶标建立QSAR模型,最终获胜队伍就使用了单任务以及多重任务深度网络。
最终的障碍仍然是对蛋白结构进行预测。最近一个工作利用了三维卷及网络对蛋白和小分子结构进行了建模,使得深度学习网络可以应用于新的蛋白[11]。这种深度学习方法可能和已有的分子动力学建模形成互补。
深度学习在医疗影像中的应用
这大概是现在做的最好的,也是最没有争议的部分了。深度学习起家就是靠ImageNet图像识别。现在FDA已经通过了肿瘤追踪以及视网膜病变相关的深度学习应用。作者着重谈了两点,第一是如何看待黑箱问题,也就是很多时候深度网络像一个黑箱子,人们不知道它是怎么工作的。一种策略是可以通过敏感性分析找到对结果有影响的区域(或者特征)。第二是作者认为深度学习的表现可能被人的表现限制了,也就是没有很好的ground truth。很多时候影像学家的观点会被穿刺取样推翻,这时可能应该用穿刺结果作为训练目标。
深度学习的优势
第一是可以在多重尺度建模,也可以考虑不同尺度,甚至不同类型的数据。比如低层次的特征可以是DNA序列,在更高层次的网络就可以考察mRNA剪切,调控蛋白结合等等。
第二是中间层变量可以用来处理相关任务,也就是所谓的转移学习。比如一个跟mRNA二级结构有关的特征可以用在预测蛋白-RNA相互作用上,也可以用来预测microRNA调控。
第三是深度学习的网络有不同的结构用来处理不同问题,包括传统的全连接模型,用来处理图像或者序列数据的卷积网络,以及用来处理有长程相互作用的recurrent network。在非监督学习中,可以利用autoencoder代替传统的主成分分析。
深度学习的局限性
首先就是诟病比较多的可诠释性(Model interpretability),作者这里提出了一个新的概念,透明度(Transparency)来部分取代可诠释性。但论证也有一些问题,可以参考原文。另一个问题就是因果性。如果两个变量高度相关,那么机器学习会将它们混淆起来,这部分还是要依靠专家意见。
[1] Deep learning in biomedicine, doi:10.1038/nbt.4233
[2] http://rsif.royalsocietypublishing.org/content/15/141/20170387
[3] Xiong, H.Y. et al.RNA splicing. The human splicing code reveals new insights into
the genetic determinants of disease. Science 347, 1254806 (2015).
[4] Alipanahi, B., Delong, A., Weirauch, M.T. & Frey, B.J. Predicting the sequence
specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol.
33, 831–838 (2015). 这是本文作者的一篇文章,附录值得一读。
[5] Kelley, D.R., Snoek, J. & Rinn, J.L. Basset: learning the regulatory code of the
accessible genome with deep convolutional neural networks. Genome Res. 26,
990–999 (2016).
[6] Zhou, J. & Troyanskaya, O.G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
[7] Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).
[8] Angermueller, C., Lee, H.J., Reik, W. & Stegle, O. DeepCpG: accurate prediction of single-cell DNA methylation states using deep learning. Genome Biol. 18, 67 (2017).
[9] Zhang, S., Hu, H., Jiang, T., Zhang, L. & Zeng, J. TITER: predicting translation
initiation sites by deep learning. Bioinformatics 33, i234–i242 (2017).
[10] https://pubs.acs.org/doi/abs/10.1021/acs.jcim.5b00238
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-5 10:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社