|
论文亮点
除了我们已知的蛋白质外,还存在大量理论上存在且有潜在功能的蛋白质,本文对如何研究这些蛋白质提出了展望。 论文导读 现有蛋白质的多样性远低于理论值,而未知蛋白质空间可能有非常多具有重要功能的蛋白质分子。2023年6月18日,中国科学院微生物研究所王军课题组在hLife发表“A roadmap for exploring the untouched protein space for biology and medicine”。文章提出探寻未知蛋白质空间的路线图,包括提出利用自然语言模型在微生物组中挖掘,目标蛋白质定向进化,以及利用高通量表达系统随机表达并且筛选一系列功能多肽和蛋白质的研究方法。
当前,人类发现的蛋白质数量与蛋白质的理论数量相比相去甚远。例如,RefSeq 数据库现收录2.56 亿个蛋白质序列,但这仅相当于长度为6个氨基酸多肽的理论多样性(图1A)。发掘尚未探索的浩瀚蛋白质空间,有望在目前生物医学亟需新的功能大分子进行疾病治疗和干预背景下,提供大量潜在的多肽和蛋白质作为药物前体。近年来,快速发展的自然语言分析方法(NLP,人工智能深度学习分支)可极大提高特定功能序列的挖掘效率和准确性。通过分析蛋白质序列的深层隐藏关联和特性发现蛋白质“语意”,突破现有基于序列相似性的分析方法局限。
图1 探寻未知蛋白质空间路线图
围绕这个主题,本文设计了初步的路线图并逐步开展工作。第一步是以微生物组为主要研究对象探索尚未发现或研究的蛋白质(图 1B)。未被发现的蛋白质已经存在于自然界中,主要来源是细菌和噬菌体等。在各种微生物组中,至少有数万亿种多肽和蛋白质未被发现或功能未知。在前期工作中,作者利用自然语言分析方法(包括LSTM,BERT和ATTENTION模型)进行了人类肠道微生物组中抗菌肽(AMPs)分子的挖掘,构建高效发掘模型并一次验证了178个序列新颖的AMPs,其中多个AMPs表现出体外和体内对抗多重耐药病原体的能力。
第二步是构建混合蛋白质(图1C)。以天然蛋白质为骨架,有针对性改变关键位点的氨基酸以探索天然蛋白质周边的分子空间。诺贝尔获得者Francis Arnold教授开发的蛋白质定向进化(directed evolution)是构建混合蛋白质的经典范式。利用已知有催化功能的蛋白质骨架(酶)和有限突变的催化位点,可以进行多轮的蛋白质性质提高。但蛋白质定向进化的现有局限是由于每次探索的空间有限,导致机器学习基础上的优化效率偏低。作者以此为基础在实验系统上进行改进,通过高通量的噬菌体表面展示以及基于分子结合、流式细胞分选方法提高实验通量,在数据分析和优化方法上则结合NLP基础上的分类/回归方法以及最新的蛋白质生成模型,提高混合蛋白质优化速度。
最后,试验和设计全新的蛋白质(图 1D)。全新蛋白质的定义是使用完全随机氨基酸序列探索蛋白质空间,然后发现和设计其中与天然蛋白质没有显著序列同源性但仍然具有功能的蛋白质。结合目标基因/通路报道系统,实验预期一次获得数千个阳性信号,然后利用NLP进行阳性序列与本底序列的特征建模,以及更优蛋白质候选者的生成和进一步验证,最终使用语言生成模型类似的蛋白质生成模型,构建全新、功能更接近全局的最优蛋白质。
总结与展望
本文运用基于自然语言模型的人工智能分析方法,从微生物组中的大量未知蛋白质出发,逐步拓展到混合蛋白质,以及最终验证全新蛋白质的方法从而探索蛋白质的分子空间,突破现有蛋白质进化的历史局限。通过高通量发现、验证和改造、设计新蛋白质分子,为感染性疾病、肿瘤等疾病治疗提供大量潜在蛋白质前体,提供生物医学未来发展的新突破点并打破药物研发面临的瓶颈。
引用格式: Jun Wang. (2023). A roadmap for exploring the untouched protein space for biology and medicine. hLife. https://doi.org/10.1016/j.hlife.2023.06.001
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-4 21:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社