路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学,勇于探索,苦海无涯,愿作小舟。

博文

MIT: 用于预测基因调控未来演变的 DNA“预言机” 精选

已有 7975 次阅读 2022-3-14 14:26 |个人分类:新观察|系统分类:博客资讯

MIT: 用于预测基因调控未来演变的 DNA“预言机

诸平

DNA-Genetic-Fitness-Landscapes.jpg

Researchers devised a neural network model capable of predicting how changes to non-coding DNA sequences in yeast affect gene expression and reproductive fitness. The model creates maps, called fitness landscapes, shown here and rendered in the shape of fossilized birds and fish. These higher order creatures evolved as a result of evolutionary changes to non-coding DNA sequences, like the ones depicted in the fitness landscapes. Credit: Martin Krzywinski

据美国麻省理工学院(Massachusetts Institute of Technology简称MIT2022311日提供的消息,MIT的研究人员与来自麻省理工学院和哈佛大学的布罗德研究所(Broad Institute of MIT and Harvard)、加拿大不列颠哥伦比亚大学(University of British Columbia)、智利圣地亚哥大学(Universidad de Santiago de Chile)、智利千年整合生物学研究所(Millennium Institute for Integrative Biology, Chile)以及以色列耶路撒冷希伯来大学(The Hebrew University of Jerusalem, Israel)的研究人员合作,研制出用于预测基因调控未来演变的 DNA“预言机An “oracle” for predicting the evolution of gene regulation)。研究人员创建了一个数学框架来检查基因组并检测自然选择的特征,破译非编码DNA的进化过去和未来。相关研究结果于202239日已经在《自然》(Nature)杂志网站发表——Eeshit Dhaval VaishnavCarl G. de BoerJennifer MolinetMoran YassourLin FanXian AdiconisDawn A. ThompsonJoshua Z. LevinFrancisco A. CubillosAviv Regev. The evolution, evolvability and engineering of gene regulatory DNA. Nature, Published: 09 March 2022. DOI: 10.1038/s41586-022-04506-6. https://www.nature.com/articles/s41586-022-04506-6

上述图示是研究人员设计了一种神经网络模型,能够预测酵母(Saccharomyces cerevisiae)中非编码DNA序列的变化如何影响基因表达和生殖适应度。该模型创建了称为适应度景观(fitness landscapes)的地图,此处显示并以化石鸟类和鱼类的形状呈现。这些高阶生物是由于非编码DNA序列的进化变化而进化的,就像适应度景观中描绘的那样。

尽管每个人类细胞都包含大量基因,但这些所谓的编码”DNA“coding” DNA)序列仅占我们整个基因组的 1%。剩下的99%非编码”DNA“non-coding” DNA)组成——与编码DNA不同,它不携带构建蛋白质的指令。

这种非编码 DNA也称为调控”DNA“regulatory” DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的制造量(如果有的话)。随着时间的推移,随着细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。许多这些突变是微不足道的,有些甚至是有益的。但有时,它们可能与常见疾病(如2型糖尿病)或更危及生命的疾病(包括癌症)的风险增加有关。

为了更好地了解这些突变的影响,研究人员一直在努力研究数学图谱(mathematical maps),使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。这些被称为适应度景观的地图大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是:繁殖成功率。早期的适应环境非常简单,通常只关注有限数量的突变。现在可以获得更丰富的数据集,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解个体基因如何随着时间的推移而进化,

202239日发表在《自然》杂志上的这项新研究中,一组科学家开发了一个框架,用于研究调控DNA的适应性景观。他们创建了一个神经网络模型,当对数亿次实验测量进行训练时,该模型能够预测酵母中这些非编码序列的变化如何影响基因表达。他们还设计了一种以二维方式表示景观的独特方式,使其易于理解过去并预测酵母以外的生物中非编码序列的未来演变——甚至为基因治疗和工业应用设计定制的基因表达模式。

麻省理工学院生物学教授、哈佛大学和麻省理工学院的布罗德研究所核心成员、基因泰克研究和早期开发(Genentech Research and Early Developmen)负责人、该研究的共同通讯作者阿维夫·雷格夫(Aviv Regev)说:我们现在有一个神谕‘oracle’),可以询问:如果我们尝试了这个序列的所有可能突变怎么办?或者,我们应该设计什么样的新序列来给我们想要的表达?科学家们现在可以使用该模型解决他们自己的进化问题或场景,以及其他问题,例如制作以所需方式控制基因表达的序列。我也对机器学习研究人员对可解释性感兴趣的可能性感到兴奋;他们可以反过来问问题,以便更好地理解潜在的生物学。

在这项研究之前,许多研究人员只是简单地针对自然界中存在的已知突变(或其轻微变化)训练他们的模型。然而,阿维夫·雷格夫团队希望更进一步,创建他们自己的无偏模型,该模型能够基于任何可能的DNA序列——甚至是他们以前从未见过的序列——预测生物体的适应性和基因表达。这也将使研究人员能够使用这些模型来设计用于制药目的的细胞,包括癌症和自身免疫性疾病的新疗法。

为了实现这一目标,共同第一作者和共同通讯作者,MIT的研究生Eeshit Dhaval Vaishnav和现任不列颠哥伦比亚大学(University of British Columbia)助理教授卡尔·德布尔 (Carl G. de Boer) 以及他们的同事创建了一个神经网络模型来预测基因表达。他们在通过将数百万个完全随机的非编码DNA序列插入酵母中生成的数据集上对其进行训练,并观察每个随机序列如何影响基因表达。他们专注于一个特定的非编码DNA序列子集,称为启动子(promoters),它们作为可以打开或关闭附近的基因蛋白质的结合位点。

阿维夫·雷格夫说:这项工作强调了当我们设计新的实验来生成正确的数据来训练模型时会带来哪些可能性。从更广泛的意义上说,我相信这些方法对于许多问题都很重要——比如了解调节区域中赋予人类基因组疾病风险的遗传变异,以及预测突变组合的影响,或设计新分子。

阿维夫·雷格夫、Eeshit Dhaval Vaishnav、卡尔·德布尔和他们的合作者继续以各种方式测试他们模型的预测能力,以展示它如何帮助揭开某些启动子(promoters)的进化过去和可能的未来的神秘面纱。创建一个准确的模型当然是一项成就,但对我来说,这实际上只是一个起点,Eeshit Dhaval Vaishnav解释说。

首先,为了确定他们的模型是否有助于合成生物学应用,例如生产抗生素、酶和食品,研究人员练习使用它来设计可以为任何感兴趣的基因产生所需表达水平的启动子。然后,他们搜索了其他科学论文,以确定基本的进化问题,为了查看他们的模型是否可以帮助回答这些问题。该团队甚至为他们的模型提供了来自一项现有研究的真实世界人口数据集,其中包含来自世界各地酵母菌株的遗传信息。通过这样做,他们能够描绘出数千年来塑造当今酵母基因组的过去选择压力。

但是,为了创建一种可以探测任何基因组的强大工具,研究人员知道他们需要找到一种方法来预测非编码序列的进化,即使没有如此全面的种群数据集。为了实现这一目标,Eeshit Dhaval Vaishnav 和他的同事设计了一种计算技术,使他们能够将框架中的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列将如何影响基因表达和适应性,而无需在实验室工作台上进行任何耗时的实验。

Eeshit Dhaval Vaishnav解释说:“适应度景观的一个未解决的问题是,我们没有一种方法,以一种有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这一空白,并为创建一个完整的适应度景观的长期愿景做出贡献。”

未参与这项研究的爱丁堡大学医学研究委员会人类遗传学部门(University of Edinburgh’s Medical Research Council Human Genetics Unit)的遗传学教授马丁·泰勒(Martin Taylor)表示,这项研究表明,人工智能不仅可以预测调控 DNA 变化的影响,还可以揭示支配着数百万年进化的潜在原理。尽管该模型仅在少数生长条件下对一小部分酵母调控DNA进行了训练,但他印象深刻的是,它能够对哺乳动物基因调控的进化做出如此有用的预测。他解释道:有一些明显的近期应用,例如在酿造、烘焙和生物技术中为酵母定制调控DNA。但这项工作的扩展还可以帮助识别人类调控DNA中的疾病突变,这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明,在更丰富、更复杂、更多样化的数据集上训练的基因调控人工智能模型有着光明的未来。

甚至在该研究正式发表之前,Eeshit Dhaval Vaishnav就开始收到其他研究人员的询问,希望使用该模型设计用于基因治疗的非编码DNA序列。

Eeshit Dhaval Vaishnav说:几十年来,人们一直在研究监管进化和适应度景观。我认为我们的框架将在回答有关基因调控DNA的演变和可进化性的基本、开放性问题方面大有帮助——甚至可以帮助我们设计用于令人兴奋的新应用的生物序列。

上述介绍,仅供参考。欲了解更多信息,敬请注意浏览原文或者相关报道

Abstract

Mutations in non-coding regulatory DNA sequences can alter gene expression, organismal phenotype and fitness1,2,3. Constructing complete fitness landscapes, in which DNA sequences are mapped to fitness, is a long-standing goal in biology, but has remained elusive because it is challenging to generalize reliably to vast sequence spaces4,5,6. Here we build sequence-to-expression models that capture fitness landscapes and use them to decipher principles of regulatory evolution. Using millions of randomly sampled promoter DNA sequences and their measured expression levels in the yeast Saccharomyces cerevisiae, we learn deep neural network models that generalize with excellent prediction performance, and enable sequence design for expression engineering. Using our models, we study expression divergence under genetic drift and strong-selection weak-mutation regimes to find that regulatory evolution is rapid and subject to diminishing returns epistasis; that conflicting expression objectives in different environments constrain expression adaptation; and that stabilizing selection on gene expression leads to the moderation of regulatory complexity. We present an approach for using such models to detect signatures of selection on expression from natural variation in regulatory sequences and use it to discover an instance of convergent regulatory evolution. We assess mutational robustness, finding that regulatory mutation effect sizes follow a power law, characterize regulatory evolvability, visualize promoter fitness landscapes, discover evolvability archetypes and illustrate the mutational robustness of natural regulatory sequence populations. Our work provides a general framework for designing regulatory sequences and addressing fundamental questions in regulatory evolution.



https://blog.sciencenet.cn/blog-212210-1329354.html

上一篇:Science:频率是如何在没有特殊电路的情况下轻易成倍增加的?
下一篇:逐个原子嵌入来构建硅量子计算机芯片
收藏 IP: 61.134.23.*| 热度|

4 农绍庄 曾杰 黄永义 晏成和

该博文允许注册用户评论 请点击登录 评论 (11 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-7 13:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部