博文

《科学》：人工智能比主流工具更能预测酶的功能

已有 7835 次阅读 2023-4-3 15:09 |个人分类:新科技|系统分类:博客资讯

《科学》：人工智能比主流工具更能预测酶的功能

诸平

Chemical structure for thiamine pyrophosphate and protein structure of transketolase. Thiamine pyrophosphate cofactor in yellow and xylulose 5-phosphate substrate in black. Credit: Thomas Shafee/Wikipedia

据美国伊利诺大学厄巴纳-香槟分校（University of Illinois at Urbana-Champaign, Urbana, IL, USA）2023年3月30日提供的消息，人工智能比主流工具更能预测酶的功能（AI predicts enzyme function better than leading tools）。

一种新的人工智能工具可以根据酶的氨基酸序列预测酶的功能，即使这些酶尚未被研究或了解甚少。研究人员表示，这款名为CLEAN（Contrastive Learning enabled Enzyme Annotation的简称，即“启用对比学习的酶注释”）的人工智能工具在准确性、可靠性和灵敏度方面超过了最先进的工具。更好地理解酶及其功能将有利于基因组学、化学、工业材料、医学、制药等领域的研究。

蛋白质功能注释，即通过对蛋白质序列、结构的分析确定蛋白质生物功能，在生物医学、药物研发等领域意义重大。虽然近年来，测序技术和宏基因组学的发展帮助人们从各类生物体中发现了大量蛋白质序列。但是，对于蛋白质的功能注释仍然面临着巨大挑战。

目前UniProt知识库已对大约1.9亿个蛋白质序列进行编目。然而，这些蛋白质中只有不到 0.3%（约50万）经过人工审核，这其中也只有不到19.4% 得到明确的实验证据支持。因此，蛋白质功能注释高度依赖于计算注释方法，但现有计算工具自动注释的酶中约有40%被错误注释。这样的困境严重阻碍了生物医学领域的发展。

美国伊利诺伊大学厄巴纳-香槟分校的化学和生物分子工程教授、此项研究的负责人赵惠民（Huimin Zhao音译）说：“就像ChatGPT使用书面语言的数据来创建预测文本一样，我们正在利用蛋白质的语言来预测它们的活性。几乎每个研究人员在研究一个新的蛋白质序列时，都想马上知道蛋白质（protein）的功能。此外，在为任何应用——生物学、医学、工业——制造化学品时，该工具（tool ）将帮助研究人员快速确定合成化学品和材料所需的适当酶。”相关研究结果于2023年3月30日已经在《科学》（Science）杂志网站发表——Tianhao Yu, Haiyang Cui, Jianan Canal Li, Yunan Luo, Guangde Jiang, Huimin Zhao. Enzyme function prediction using contrastive learning. Science, 30 Mar 2023, Vol 379, Issue 6639, pp. 1358-1363. DOI: 10.1126/science.adf2465. www.science.org/doi/10.1126/science.adf2465.并于3月31日在网上发布CLEAN。

参与此项研究的除了来自美国伊利诺大学厄巴纳-香槟分校的研究人员之外，还有来自美国康奈尔大学（Cornell University, Ithaca, NY, USA）、美国佐治亚理工学院(Georgia Institute of Technology, Atlanta, GA, USA) 的研究人员。

随着基因组学（genomics）的进步，许多酶已经被识别和测序，但科学家们对这些酶的作用知之甚少，美国伊利诺伊州卡尔·沃斯基因组生物学研究所（Carl R. Woese Institute for Genomic Biology at Illinois）的成员赵惠民说。

其他计算工具试图预测酶的功能（enzyme functions）。通常，他们试图通过将查询的序列与已知酶的目录进行比较，并找到相似的序列，来指定酶的委托编号和标识代码，以指示酶催化的反应类型。然而，这些工具对于研究较少或未被描述的酶，或执行多项任务的酶，效果不佳。赵惠民说：“我们不是第一个使用人工智能工具来预测酶的委托数量的，但我们是第一个使用这种名为对比学习的新型深度学习算法（deep-learning algorithm）来预测酶功能的。我们发现这种算法比其他人使用的人工智能工具要好得多。我们不能保证每个人的产品都能被正确预测，但我们可以得到比其他两种或其他三种方法更高的准确性。”

研究人员通过计算和体外实验验证了他们的工具。他们发现，该工具不仅可以预测以前未被描述的酶的功能，还可以纠正被领先软件错误标记的酶，并正确识别具有两种或多种功能的酶。

赵惠民的团队正在让其他研究人员可以在线访问CLEAN，以确定一种酶的特征或确定一种酶是否能催化所需的反应。赵惠民说:“我们希望此工具能被研究界广泛使用。通过网络界面，研究人员只需在搜索框中输入序列，就像搜索引擎（search engine）一样进行搜索，即可看到结果。”

该小组计划扩展CLEAN背后的AI来表征其他蛋白质，比如结合蛋白（binding proteins）。该团队还希望进一步开发机器学习算法，以便用户可以搜索所需的反应，人工智能将指出合适的酶来完成这项工作。赵惠民说：“有很多未鉴定的结合蛋白，比如受体（receptors）和转录因子（transcription factors）。我们也想预测它们的功能。我们希望预测所有蛋白质的功能，这样我们就可以知道一个细胞的所有蛋白质，更好地研究或设计整个细胞，用于生物技术或生物医学应用（biomedical applications）。”

赵惠民也是伊利诺伊大学卡尔伊利诺伊医学院（Carle Illinois College of Medicine）生物工程、化学、生物医学和转化科学的教授。

本研究得到了美国国家科学基金会（National Science Foundation: 2019897）的资助。

上述介绍，仅供参考。欲了解更多信息，敬请注意浏览原文或者相关报道。

A crystal ball for enzyme activities

With rapidly growing genomic and metagenomic databases, we have vastly more sequence data than functional data for enzymes. Accurate functional annotation from sparse experimental evidence is therefore crucial for analysis and applications when working from sequence data. Hoping to circumvent the limitations of current approaches, Yu et al. developed a machine learning model based on contrastive learning that performs particularly well at discerning enzyme function. In addition to comparing the performance of the method with existing tools, the authors experimentally validated predicted functions of 36 enzymes that form carbon–halogen bonds. They found excellent prediction accuracy and the ability to distinguish between similar activities. —MAF

Abstract

Enzyme function annotation is a fundamental challenge, and numerous computational tools have been developed. However, most of these tools cannot accurately predict functional annotations, such as enzyme commission (EC) number, for less-studied proteins or those with previously uncharacterized functions or multiple activities. We present a machine learning algorithm named CLEAN (contrastive learning–enabled enzyme annotation) to assign EC numbers to enzymes with better accuracy, reliability, and sensitivity compared with the state-of-the-art tool BLASTp. The contrastive learning framework empowers CLEAN to confidently (i) annotate understudied enzymes, (ii) correct mislabeled enzymes, and (iii) identify promiscuous enzymes with two or more EC numbers—functions that we demonstrate by systematic in silico and in vitro experiments. We anticipate that this tool will be widely used for predicting the functions of uncharacterized enzymes, thereby advancing many fields, such as genomics, synthetic biology, and biocatalysis.

转载本文请联系原作者获取授权，同时请注明本文来自诸平科学网博客。
链接地址：https://blog.sciencenet.cn/blog-212210-1382811.html

上一篇：用细菌将空气中的二氧化碳转化为聚酯纤维
下一篇：高电荷离子熔化纳米金块，揭示了宏观和微观物理之间的新世界

收藏 IP: 111.20.218.*| 热度|

路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学，勇于探索，苦海无涯，愿作小舟。

博文

《科学》：人工智能比主流工具更能预测酶的功能

当前推荐数：6 推荐人：王成玉 晏成和 李剑超 崔锦华 龙良鲲 许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)

诸平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学，勇于探索，苦海无涯，愿作小舟。

博文

《科学》：人工智能比主流工具更能预测酶的功能

当前推荐数：6 推荐人： 王成玉 晏成和 李剑超 崔锦华 龙良鲲 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

诸平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：6 推荐人：王成玉晏成和李剑超崔锦华龙良鲲许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)