中国高分子分享 http://blog.sciencenet.cn/u/cjps 为高分子科研成果提供发表的园地,传播最新学科前沿动态的平台,打开国内外高分子学术交流的窗口

博文

【封面文章】北京大学张文彬| TmPred:利用蛋白质语言模型和深度学习增强对嗜热蛋白质的熔点预测

已有 173 次阅读 2025-12-5 18:15 |系统分类:论文交流

image.png

封面设计理念

       背景整体深蓝色,包含连接的网络和发光的节点,体现出科技感;蛋白质采用金属质感的暖色调,体现出灼热感,体现出将嗜热蛋白质的研究主体;左侧的二进制数字具有流动的质感,体现出数据的输入;右侧橙色弧线体现出模型的预测结果。

       本文提出了嗜热蛋白质熔点预测模型TmPred,实现对嗜热蛋白质熔点的准确预测。TmPred采用了多模态的信息输入,分别使用蛋白质语言模型和残基接触图谱实现对蛋白质序列与结构信息的表征。同时,TmPred运用深度学习,通过图卷积神经网络实现序列与结构信息的融合,并创新性地通过Graphormer引入注意力机制,得到的特征向量使用全连接层进行回归预测。在性能评估中,TmPred模型在测试集上的均方根误差(RMSE)、皮尔逊相关系数(P)和决定系数(R²)分别为5.48 °C、0.784、0.613,相比DeepTM等前沿预测模型分别提升了19%、15%和32%。此外,TmPred在独立盲测数据集上展现出强大的泛化能力。TmPred将为嗜热蛋白的挖掘与改造提供了有力的工具。

文章背景

嗜热蛋白质能在高温下保持结构与功能,使其在工业应用中大显身手。由于实验测量的复杂性,蛋白质熔点(Tm)的预测已经成为研究热点。以往方法主要依赖氨基酸组成、蛋白质理化性质以及宿主最佳生长温度(OGT)来预测Tm值。然而,由于数据稀缺,这些方法在预测嗜热蛋白(Tm> 60 ℃)的Tm值时普遍表现欠佳,这也限制了嗜热蛋白质的系统挖掘与功能优化。

近期,北京大学张文彬教授课题组将蛋白质语言模型与深度神经网络框架结合,提出TmPred模型,大幅提升了嗜热蛋白质的Tm预测精度。TmPred模型包括三个模块:图卷积神经网络(GCN)、Graphormer模块和全连接层(FC)。TmPred采用了多模态的信息输入,使用ProtBERT蛋白质语言模型进行蛋白质的序列信息表征,使用残基接触图谱进行蛋白质的结构信息表征。多模态的信息通过GCN进行融合,随后通过Graphormer模块引入注意力机制,得到的蛋白质特征嵌入向量通过FC层回归预测Tm值(图1a)。其中,Graphormer模块在Transformer的基础上引入了中心性编码(centrality encoding)和空间编码(spatial encoding),显著提升了模型对图结构数据的理解能力(图1b)。

image.png

图1. TmPred的模型框架与Graphormer模块架构

TmPred相较此前的SOTA模型DeepTM,预测性能大幅提升。在使用相同训练集与测试集的情况下,TmPred在测试集上预测结果的根均方误差(RMSE)相较DeepTM降低了19%,而Pearson相关系数(P)和决定系数(R2)则分别提升了15%与32%,且在各个温度区间,TmPred也展现出更窄的预测误差分布,表明TmPred具有良好的预测精度与预测稳定性(图2)。在真实的嗜热蛋白质盲测数据集上,TmPred相较广泛应用的DeepTM、ProTstab2、DeepSTABp,也展现出更好的预测精度,从而验证了TmPred具有良好的可泛化性。

image.png

图2. TmPred与DeepTM的预测性能对比

随后,研究者对TmPred进行了系统的消融实验,从而解释了各个部分的作用。首先是TmPred整体架构的消融实验,通过逐步移除GCN模块、Graphormer模块,以及同时移除两个关键模块,模型的预测性能逐步下降,证明TmPred模型中的GCN模块和Graphormer模型缺一不可。随后是对Graphormer模块中引入的两个结构性质编码的消融实验,保持GCN模块和FC模块不变,将Graphormer模块替换成Transformer后,模型的预测性能显著下降,随后逐步向其中引入中心性编码和结构编码,模型的预测性能逐步提升,从而证明了Graphormer中两个特殊编码的重要性(图3)。

image.png

图3. TmPred模型与Graphormer模块的消融实验

综上所述,研究者结合蛋白质语言模型和深度神经网络提出了TmPred模型,通过对蛋白质进行多模态的信息表征,实现了嗜热蛋白质Tm的准确预测,并通过系统性的消融实验证明了TmPred框架设计的合理性。TmPred为嗜热蛋白质的研究提供了一个有力的工具。

本文以“TmPred: enhancing thermophilic protein melting point prediction with protein language models and deep learning” 为题,发表在Chinese Journal of Polymer Science。北京大学化学与分子工程学院博士生江豪为该论文第一作者,张文彬教授为通讯作者。北京大学化学与分子工程学院王宇翔、蒋冯逸,北京大学深圳研究生院信工学院张恭博、张宏宇、聂志伟、袁粒教授、陈杰教授等亦为该工作做出了贡献。

Citation

Jiang, H.; Zhang, G. B.; Wang, Y. X.; Jiang, F. Y.; Zhang, H. Y.; Nie, Z. W.; Yuan, L.; Chen, J.; Zhang, W. B. TmPred: enhancing thermophilic proteinmelting point prediction with protein language models and deep learning. Chinese J. Polym. Sci. 2025, 43, 2191–2200.DOI:10.1007/s10118-025-3447-y 



https://blog.sciencenet.cn/blog-3582600-1513120.html

上一篇:中国科学院长春应化所唐涛团队 | 高性能聚合物纳米共混泡沫材料研究进展
下一篇:具有多重刺激荧光变色响应性的Tb配位交联弹性体
收藏 IP: 180.165.16.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 20:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部