博文

深度学习与生物医疗精选

已有 14853 次阅读 2018-9-14 11:06 |系统分类:观点评述

这期《自然·生物技术》中有一篇谈深度学习的文章[1]，题目是“Deep learning in biomedicine”，作者是来自多伦多的Brendan J Frey等人。深度学习现在人们谈论的很多，在生物，医疗，甚至物理领域都有不少应用。之前在biorxiv上有一篇综述，叫“Opportunities And Obstacles For Deep Learning In Biology And Medicine”[2]。参考文献比较多，但写的并不算很好。NBT的这篇相对更清晰一些，这里大概介绍一下。

深度学习在基因组学中的应用

测序数据是非常适合应用深度学习的。大概有两个原因，第一是数据量非常大。深度学习相对于传统机器学习的一个最大特点是训练样本越多，最终表现越好（而不是到达一个平台）。当然测序数据维度也很大，相应也会给学习过程带来一些困难，需要谨慎处理。第二是深度学习适合对基因型与表型之间的关系建模。传统分析手段包括机器学习一般依靠一些简单法则，比如效应线性可加，或者满足特定模型。深度学习通过多层网络，可以有效描述基因型与表型之间的非线性。

应用深度学习的例子有：预测外显子剪切的SPIDEX [3]；预测转录因子和RNA结合蛋白作用位点的DeepBind [4]；预测DNase超敏感性的Basset [5]；预测转录因子结合和组蛋白修饰的DeepSEA [6]和DanQ [7]；预测CpG岛甲基化的DeepCpG [8]；预测转录起始位点的TITER [9]。

这方面的一个挑战是如何将深度学习应用到GWAS数据上来，如何提高统计效力以及提供机制性的解释，因为GWAS研究的是很多SNP微小的作用。作者的设想是可以利用深度模型来对分子表型进行第一步的建模，然后在此基础上加入更多层网络，用来囊括生物调控网络乃至于生理过程方面的信息。

深度学习在药物发现中的作用

作者这里主要关注如何预测候选药物对于靶标的作用，也就是如何建立定量的结构活性关系模型（QSAR）。主要的复杂性来自于蛋白质结构预测，目前没有很好的算法能够从序列出发，预测蛋白质结构（尽管这方面也有一些深度学习相关的工作）。一个办法就是绕过这个难题，只对小分子建模，从小分子的化学结构出发来预测它能否作用于某种蛋白。类似方法也被应用到预测分子毒性上，比如肝毒性[10]。如果我们假设相似的分子可以作用于相似的蛋白，就可以建立多重任务模型。在2012年默克举办的分子活性预测比赛中，参赛者被要求对15个蛋白靶标建立QSAR模型，最终获胜队伍就使用了单任务以及多重任务深度网络。

最终的障碍仍然是对蛋白结构进行预测。最近一个工作利用了三维卷及网络对蛋白和小分子结构进行了建模，使得深度学习网络可以应用于新的蛋白[11]。这种深度学习方法可能和已有的分子动力学建模形成互补。

深度学习在医疗影像中的应用

这大概是现在做的最好的，也是最没有争议的部分了。深度学习起家就是靠ImageNet图像识别。现在FDA已经通过了肿瘤追踪以及视网膜病变相关的深度学习应用。作者着重谈了两点，第一是如何看待黑箱问题，也就是很多时候深度网络像一个黑箱子，人们不知道它是怎么工作的。一种策略是可以通过敏感性分析找到对结果有影响的区域（或者特征）。第二是作者认为深度学习的表现可能被人的表现限制了，也就是没有很好的ground truth。很多时候影像学家的观点会被穿刺取样推翻，这时可能应该用穿刺结果作为训练目标。

深度学习的优势

第一是可以在多重尺度建模，也可以考虑不同尺度，甚至不同类型的数据。比如低层次的特征可以是DNA序列，在更高层次的网络就可以考察mRNA剪切，调控蛋白结合等等。

第二是中间层变量可以用来处理相关任务，也就是所谓的转移学习。比如一个跟mRNA二级结构有关的特征可以用在预测蛋白-RNA相互作用上，也可以用来预测microRNA调控。

第三是深度学习的网络有不同的结构用来处理不同问题，包括传统的全连接模型，用来处理图像或者序列数据的卷积网络，以及用来处理有长程相互作用的recurrent network。在非监督学习中，可以利用autoencoder代替传统的主成分分析。

深度学习的局限性

首先就是诟病比较多的可诠释性（Model interpretability），作者这里提出了一个新的概念，透明度（Transparency）来部分取代可诠释性。但论证也有一些问题，可以参考原文。另一个问题就是因果性。如果两个变量高度相关，那么机器学习会将它们混淆起来，这部分还是要依靠专家意见。

[1] Deep learning in biomedicine, doi:10.1038/nbt.4233

[2] http://rsif.royalsocietypublishing.org/content/15/141/20170387

[3] Xiong, H.Y. et al.RNA splicing. The human splicing code reveals new insights into

the genetic determinants of disease. Science 347, 1254806 (2015).

[4] Alipanahi, B., Delong, A., Weirauch, M.T. & Frey, B.J. Predicting the sequence

specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol.

33, 831–838 (2015). 这是本文作者的一篇文章，附录值得一读。

[5] Kelley, D.R., Snoek, J. & Rinn, J.L. Basset: learning the regulatory code of the

accessible genome with deep convolutional neural networks. Genome Res. 26,

990–999 (2016).

[6] Zhou, J. & Troyanskaya, O.G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

[7] Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).

[8] Angermueller, C., Lee, H.J., Reik, W. & Stegle, O. DeepCpG: accurate prediction of single-cell DNA methylation states using deep learning. Genome Biol. 18, 67 (2017).

[9] Zhang, S., Hu, H., Jiang, T., Zhang, L. & Zeng, J. TITER: predicting translation

initiation sites by deep learning. Bioinformatics 33, i234–i242 (2017).

[10] https://pubs.acs.org/doi/abs/10.1021/acs.jcim.5b00238

转载本文请联系原作者获取授权，同时请注明本文来自邵斌科学网博客。
链接地址：https://blog.sciencenet.cn/blog-927304-1134750.html

上一篇：最近的杂感
下一篇：人工智能与42：从AlphaFold谈起

收藏 IP: 66.30.113.*| 热度|

当前推荐数：4 推荐人：李剑超 李久煊 郑永军 黄永义

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

邵斌

扫一扫，分享此博文

CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

深度学习与生物医疗精选

当前推荐数：4 推荐人：李剑超 李久煊 郑永军 黄永义

该博文允许注册用户评论请点击登录评论 (1 个评论)

邵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

深度学习与生物医疗 精选

当前推荐数：4 推荐人： 李剑超 李久煊 郑永军 黄永义

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

邵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

深度学习与生物医疗精选

当前推荐数：4 推荐人：李剑超李久煊郑永军黄永义

该博文允许注册用户评论请点击登录评论 (1 个评论)