路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学,勇于探索,苦海无涯,愿作小舟。

博文

ProteinGAN:生成功能性蛋白质序列的对抗性网络

已有 5894 次阅读 2021-4-4 21:39 |个人分类:新观察|系统分类:海外观察

ProteinGAN:生成功能性蛋白质序列的对抗性网络

诸平

1000.jpg

Figure 1. summarizing ProteinGAN’s training. Given a random input vector, the generator network produces a protein sequence, which is scored by the discriminator network by comparing it to natural protein sequences. The generator tries to fool the discriminator by generating sequences that will eventually look like real ones (the generator never actually sees real enzyme sequences). Credit: Repecka et al. 

据物理学家组织网(phys.org202142日报道,ProteinGAN是一种生成功能性蛋白质序列的对抗性网络。图1概述了ProteinGAN的训练。给定一个随机的输入向量,生成器网络将生成一种蛋白质序列。通过与内在无序的蛋白质序列比较,由鉴别器网络对其评分。生成器试图通过最终生成看起来像实际酶序列的序列来欺骗鉴别器(生成器从未真正看到过真实的酶序列)。相关研究结果于202134日已经在《自然机器智能》(Nature Machine Intelligence)杂志网站发表——Donatas RepeckaVykintas JauniskisLaurynas KarpusElzbieta RembezaIrmantas RokaitisJan ZrimecSimona PovilonieneAudrius LaurynenasSandra ViknanderWissam AbuajwaOtto SavolainenRolandas MeskysMartin K. M. EngqvistAleksej Zelezniak. Extend the functional protein sequence space using a generative hostile network. Nature Machine Intelligence, (2021). DOI:10.1038/s42256-021-00310-5. Published: 04 March 2021. https://www.nature.com/articles/s42256-021-00310-5

蛋白质是一种很大的、且高度复杂的、自然存在的分子,可以在所有生物体内找到。这些独特的物质,由氨基酸通过肽键连接在一起形成长链,可以具有多种功能和特性。

不同氨基酸形成特定蛋白质的特定顺序最终决定了蛋白质的三维(3D)结构、理化性质和分子功能。虽然科学家们已经研究蛋白质几十年了,但迄今为止,设计能引发特定化学反应的蛋白质被证明是极具挑战性的。

来自立陶宛维尔纽斯大学(Vilnius University in Lithuania)和瑞典查尔姆斯理工大学(Chalmers University of Technology in Sweden)的生物物质设计(Biomatter Designs)研究人员最近开发出ProteinGAN,这是一种生成对抗性网络(generative adversarial network简称GAN),它可以处理和“学习”不同的天然蛋白质序列。这一独特的网络已经在《自然机器智能》杂志发表,随后利用它获得的信息生成新的功能蛋白序列。

负责这项研究的查尔默斯理工大学副教授Aleksej Zelizniak告诉Phys.org记者:“蛋白质是氨基酸的长序列,它能导致所有生命系统进程并诱导人类。蛋白质在我们的日常生活中很常见,从洗衣粉到癌症和冠状病毒的治疗,不计其数的产品中都含有蛋白质。蛋白质分子是由20个氨基酸组成,以不同的顺序排列,它们的排列顺序决定了蛋白质的功能。

创建功能性蛋白质序列是一项非常具有挑战性的任务。因为即使是特定序列的最微小变化,也可能导致蛋白质失效。非功能性蛋白质可能具有有害和不良作用。例如,它可能导致人类和动物罹患癌症和其他疾病。 

Aleksej Zelezniak 说:如果要制造适合人类需求的蛋白质,则需要了解氨基酸的顺序以及制造这些蛋白质的可能性的天文数字,但这并非易事。受人工智能最新发展的启发,尤其是现实照片和视频的制作,吸引我们会询问:当前的人工智能技术是否已准备就绪,可以生产人类已知的最复杂的分子——蛋白质。” 

ProteinGANAleksej Zelezniak和他的同事开发的模型,它基于一种称为对抗学习(adversarial learning)的著名机器学习方法。对抗学习可以看作是由两个或多个人工神经网络的游戏。这些网络中的第一个被称为生成器(generator,生成某些类型的数据(例如,对于ProteinGAN,为图像、文本或蛋白质序列)。第二个网络称为鉴别器(discriminator),它试图将真实数据与生成器创建的人工数据(例如蛋白质序列)区分开。

然后,生成器使用鉴别器提供的反馈(即使生成的数据与实际数据区分开的特性)生成新数据。生成器不处理或分析实际数据及其生成的数据。因此,其学习仅取决于鉴别器执行的分析结果。

Aleksej Zelezniak说:通过重复此过程,两个网络都将得到改善,直到生成的序列与实际序列无法区分为止。” 他说:``我们能够使用我们开发的AI工具来生产具有活性,但不存在于自然界或尚未被发现的功能蛋白。''

在研究人员进行的第一项试验中,ProteinGAN产生了一种新的高度多样化的蛋白质序列,其物理性质与天然蛋白质相似。Aleksej Zelezniak和他的同事使用苹果酸脱氢酶(malate

Dehydrogenase简称MDH)作为模板酶,显示出ProteinGAN产生的许多序列都是可溶的,并表现出MDH催化活性。这意味着它在医学和研究环境中具有有趣的用途。在未来,ProteinGAN可用于发现具有不同特性的新蛋白质序列。这对于各种技术和科学应用都是有用的。

Aleksej Zelezniak 说:我们的实验室致力于基于AI技术来合成生物学应用中化学物质。我们目前正在努力解决诸如塑料污染等新问题。我们相信,人工智能将有助于为这个特殊问题创建更好的生物体。

上述介绍仅供参考,更多信息敬请注意浏览原文或者相关报道,如“独特的AI方法可生成蛋白质并加快药物开发(Unique AI method for generating proteins will speed up drug development)。”

Abstract

De novo protein design for catalysis of any desired chemical reaction is a long-standing goal in protein engineering because of the broad spectrum of technological, scientific and medical applications. However, mapping protein sequence to protein function is currently neither computationally nor experimentally tangible. Here, we develop ProteinGAN, a self-attention-based variant of the generative adversarial network that is able to ‘learn’ natural protein sequence diversity and enables the generation of functional protein sequences. ProteinGAN learns the evolutionary relationships of protein sequences directly from the complex multidimensional amino-acid sequence space and creates new, highly diverse sequence variants with natural-like physical properties. Using malate dehydrogenase (MDH) as a template enzyme, we show that 24% (13 out of 55 tested) of the ProteinGAN-generated and experimentally tested sequences are soluble and display MDH catalytic activity in the tested conditions in vitro, including a highly mutated variant of 106 amino-acid substitutions. ProteinGAN therefore demonstrates the potential of artificial intelligence to rapidly generate highly diverse functional proteins within the allowed biological constraints of the sequence space.




https://blog.sciencenet.cn/blog-212210-1280286.html

上一篇:双床催化剂可将合成气高度转化为汽油范围的液态烃
下一篇:美国额外死亡人数剧增
收藏 IP: 124.115.214.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 11:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部