路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学,勇于探索,苦海无涯,愿作小舟。

博文

机器学习最终清楚地解释了基因调控

已有 1484 次阅读 2019-12-29 21:46 |个人分类:新观察|系统分类:海外观察| 机器学习, 基因调控

机器学习最终清楚地解释了基因调控

诸平

据美国冷泉港实验室(Cold Spring Harbor Laboratory简称CSHL)的 Brian Stallard20191226日提供的消息,CSHL 的研究人员,将用于基因调控的数学热力学模型(见图1左上方)公式化为人工神经网络(artificial neural network简称ANN)(见图1左下方)。大型DNA数据集通过新的ANN(见图1右图示)输入。连接方式以生物学家易于解释的方式呈现。最终可以使机器学习清楚地解释基因控制。

image.png

Fig. 1 A mathematical thermodynamic model for gene regulation (top, left) is formulated as an artificial neural network (ANN) (bottom, left). Large DNA datasets are fed through the new ANN (right). The pattern of connections is presented in a way that is easy for biologists to interpret. Credit: Kinney lab/CSHL, 2019

在这个大数据时代,人工智能(artificial intelligence简称AI)已成为科学家的宝贵盟友。例如,机器学习算法正在帮助生物学家理解控制基因功能的令人眼花缭乱的分子信号。但是,随着开发出新算法来分析更多数据,它们也变得更加复杂且难以解释。CSHL的定量生物学家贾斯汀·金尼(Justin B. Kinney)和阿马尔·塔里恩(Ammar Tareen)制定了设计高级机器学习算法的策略,使生物学家更容易理解。

该算法是一种ANN。受神经元在大脑中连接和分支方式的启发,ANN是高级机器学习的计算基础。尽管具有ANN的名称,但它并非专门用于研究大脑。

贾斯汀·金尼和阿马尔·塔里恩这样的生物学家,都使用ANN来分析来自称为DNA大规模平行报告基因分析"massively parallel reporter assay" 简称MPRA)实验方法的数据。利用这些数据,定量生物学家可以制作出ANN,以预测哪些分子在称为基因调控的过程中控制特定基因

细胞在所有时间并非需要所有蛋白质。相反,他们依靠复杂的分子机制根据需要打开或关闭产生蛋白质的基因。当这些规定失效时,通常会出现疾病。

贾斯汀·金尼说:了解基因调控的机制,对于开发针对疾病的分子疗法与束手无策之间的差异至关重要。

不幸的是,根据MPRA数据塑造标准ANN的方式与科学家在生命科学中提出问题的方式大不相同。这种错位意味着生物学家发现很难解释基因调控是如何发生的。

贾斯汀·金尼助理教授在20191213日举行的第一届计算生物学机器学习会议上展示了一种新设计的ANN的相对易于理解的结构(见图2所示)

image.png

Fig. 2 Assistant Professor Justin Kinney showcases the relatively easy-to-understand structure of a newly-designed artificial neural network. His results were officially presented at the 1st Conference on Machine Learning in Computational Biology on December 13. Credit: CSHL, 2019

现在,贾斯汀·金尼和阿马尔·塔里恩开发出了一种新方法,可以弥合计算工具与生物学家的想法之间的鸿沟。他们创建了自定义的人工神经网络,以数学方式反映了生物学中有关基因和控制它们的分子的常见概念。通过这种方式,这对科学家实际上迫使他们的机器学习算法以生物学家可以理解的方式处理数据。

贾斯汀·金尼解释说,这些努力强调了如何优化现代工业AI技术以用于生命科学。贾斯汀·金尼的实验室已经验证了这种用于制作定制ANN的新策略,因此正在将其应用于调查各种各样的生物系统,包括与人类疾病有关的关键基因回路。

该结果于20191213日在加拿大温哥华举行的第一届计算生物学机器学习会议上正式宣布。也可以通过 CSHLbioRxiv服务器上的预印本来阅读原文,了解更多信息。

Biologists pioneer first method to decode gene expression

Ammar Tareen, Justin Block Kinney. Biophysical models of cis-regulation as interpretable neural networksbioRxiv (2019). DOI: 10.1101/835942. Posted December 27, 2019.

Abstract

The adoption of deep learning techniques in genomics has been hindered by the difficulty of mechanistically interpreting the models that these techniques produce. In recent years, a variety of post-hoc attribution methods have been proposed for addressing this neural network interpretability problem in the context of gene regulation. Here we describe a complementary way of approaching this problem. Our strategy is based on the observation that two large classes of biophysical models of cis-regulatory mechanisms can be expressed as deep neural networks in which nodes and weights have explicit physiochemical interpretations. We also demonstrate how such biophysical networks can be rapidly inferred, using modern deep learning frameworks, from the data produced by certain types of massively parallel reporter assays (MPRAs). These results suggest a scalable strategy for using MPRAs to systematically characterize the biophysical basis of gene regulation in a wide range of biological contexts. They also highlight gene regulation as a promising venue for the development of scientifically interpretable approaches to deep learning.



http://blog.sciencenet.cn/blog-212210-1211967.html

上一篇:[转载]来自;老挝琅勃拉邦的几张照片
下一篇:中科院下属研究所自然指数分值排行榜

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2020-1-29 06:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部