博文

SSB｜基于预训练语言模型的迁移学习用于大肠杆菌蛋白质表达水平预测精选

已有 418 次阅读 2026-7-2 13:53 |系统分类:科研笔记

640 (29).png

近日，中国科学院天津工业生物技术研究所生物设计中心马红武研究员团队在 Synthetic and Systems Biotechnology发表题为 "Transfer learning with pre-trained language models for protein expression level prediction in Escherichia coli" 的研究论文。

该研究针对大肠杆菌重组蛋白表达水平预测这一长期挑战，首次提出了一种融合密码子与蛋白质序列预训练语言模型的迁移学习框架 TLCP-EPE。该框架通过低秩适配（LoRA）微调方法，将 CaLM （密码子语言模型）和 ProtT5（蛋白质语言模型）两种预训练模型的表征能力有效融合，并采用 BiGRU-MLP 架构进行表达水平预测。在独立测试集上，TLCP-EPE 取得了 AUC 0.835 的优异性能，显著优于传统密码子偏好指标和现有深度学习方法。研究还建立了在线服务平台（https://tlcp-epe.biodesign.ac.cn），为理性蛋白质设计和生物制造应用提供了强有力的预测工具。

【研究背景】

大肠杆菌（Escherichia coli）因其遗传操作简便、生长迅速，是重组蛋白生产与代谢工程中最常用的宿主。然而，蛋白表达是一个受转录、翻译及翻译后修饰等共同调控的复杂过程。即使在同一调控元件下，编码序列差异也可导致表达显著变化。传统评估方法（如密码子适应指数CAI、GC含量等）多基于经验统计，仅能捕捉单一维度的序列特征，预测准确率有限。近年来，深度学习模型（如MPEPE、MPB-EXP等）虽为表达预测提供了新方法，但现有研究多局限于单一模态（仅依赖密码子或氨基酸序列），且基于蛋白质组学数据训练的模型难以准确反映质粒重组表达场景，泛化能力受限。因此，亟需一种能够双模态协同建模、兼具准确性与泛化能力的预测新方法。

【研究成果】

1. 构建蛋白表达数据集

本研究系统梳理并构建了用于大肠杆菌蛋白表达预测的多模态数据集（表 1）。训练与验证集（S）源自 6,348 条编码序列（CDS），经严格预处理去除中间表达类别后，保留了 4,281 条明确标记为高/低表达的序列（序列一致性 <75%），并按 8:2 划分为 S1（用于模型微调）和 S2（用于预测器训练）。为确保模型评估的客观性，研究进一步构建了两个独立测试集：T1 包含 2,529 条 CDS，其表达水平基于蛋白质丰度定量；T2 包含 3,578 条蛋白质序列，采用与训练集相同的 SDS-PAGE 检测标准。

表 1. 数据集统计信息。

640 (30).png

2. 构建 TLCP-EPE 双模态迁移学习框架

本研究提出了 TLCP-EPE 框架，该框架由三个核心模块组成（图 1）。适配器模块（Adapter）：采用 LoRA 低秩自适应技术对密码子预训练语言模型 CaLM 和蛋白质预训练语言模型 ProtT5 进行高效微调，将表达相关特征融入模型。编码器模块（Encoder）：利用微调后的模型分别提取密码子和蛋白质序列的嵌入表征，经均值池化后拼接，生成统一的“密码子-蛋白质”融合序列表征。预测器模块（Predictor）：采用 BiGRU 神经网络结合注意力机制提取上下文依赖特征，最后通过 MLP 分类头将序列精准分类为高表达或低表达。

640 (31).png

图 1. TLCP-EPE 框架架构。（a）适配器：使用 LoRA 微调 PLM；（b）编码器：提取并拼接序列表征；（c）预测器：BiGRU 特征提取与 MLP 预测。

3. 微调方法的系统比较

微调方法对预训练语言模型（PLM）的下游表现至关重要。研究系统比较了冻结、全量、深层、浅层和 LoRA 五种微调方法（图 2）。结果表明，LoRA 在 CaLM 和 ProtT5 的各项指标中均表现最佳，其次是深度微调。完全微调和浅层微调策略的性能甚至不如冻结基线，这反映了灾难性遗忘。重要的是，LoRA 还展现出极高的参数效率，仅需 0.93M（CaLM）和 3.28M（ProtT5）个额外参数。这些发现凸显了 LoRA 以极低的计算成本显著提升性能的能力，使其成为蛋白质表达预测中最有效的微调策略。

640 (32).png

图 2. 不同微调方法在数据集 S1 上的 10 折交叉验证性能比较。（a）CaLM；（b）ProtT5。

4. 预训练语言模型的基准评测

研究对 10 种主流密码子和蛋白质 PLM 进行 LoRA 微调评测。在密码子模型中，CaLM 表现最佳（AUC 0.786）；在蛋白质模型中，ProtT5 以微弱优势领先于 ESM2（AUC 0.763）。进一步分析表明，CaLM 以更少的参数规模实现了更优性能，提示密码子水平信息在表达预测中具有关键作用。模型规模并非越大越好，过大的模型（如 ESM2-3B、Ankh-large）因微调数据相对不足反而出现性能下降。

640 (33).png

图 3. 密码子和蛋白质预训练语言模型性能评估与比较。（a）五种主流密码子 PLM；（b）五种主流蛋白质 PLM。

5. 双模态融合显著提升预测性能及机制解析

为验证双模态融合的优势，研究对比了蛋白质单模态模型（TLP-EPE）与双模态模型（TLCP-EPE）。10 折交叉验证显示，TLCP-EPE 的 AUC 高达 0.821，显著优于 TLP-EPE（p < 0.01），在 Recall、F1、MCC 等指标上全面领先（图 4）。为揭示内在机制，研究分析了模型的注意力权重分布（图 5）。发现 CaLM 的注意力集中于对角线附近，侧重捕捉相邻密码子的局部上下文；而 ProtT5 的注意力分布更弥散，能有效建模远距离氨基酸残基的全局关联。两者截然不同的注意力模式形成了完美的“局部-全局”互补，这正是双模态融合提升性能的核心机制。

640 (34).png

图 4. TLCP-EPE 与 TLP-EPE 预测性能比较。（a-b）ROC 和 PR 曲线；（c）多项评估指标对比（p < 0.01）。

640 (38).png

图 5. 微调后 CaLM 和 ProtT5 的注意力权重热力图。（a-b）四条不同基因序列的注意力分数分布。

6. 独立测试集验证模型的卓越泛化能力

为全面评估泛化能力，研究在两个独立测试集上进行了基准比较（表 3）。在完全独立的 T1 测试集上，TLCP-EPE 取得 AUC 0.835、准确率 0.709，大幅领先于传统深度学习模型 MPEPE（AUC 0.786）和 PLM 方法 CodonBERT（AUC 0.732）。对于仅含蛋白质序列的 T2 测试集，TLP-EPE 同样取得最优表现（AUC 0.713），超越了 MPB-EXP 和 RP3Net 等方法。此外，基于 CAI、MFE 和 GC 含量的传统统计指标组合仅取得 0.618 的准确率，进一步凸显了 TLCP-EPE 捕捉复杂序列特征的能力。

表 2. 不同方法在独立测试集上的性能比较。

640 (39).png

【总结与展望】

该研究通过构建 TLCP-EPE 迁移学习框架，首次实现了密码子级与蛋白质级预训练语言模型的深度融合，系统验证了 LoRA 微调策略在蛋白表达预测任务中的高效性，并从注意力机制层面揭示了双模态序列表征的“局部-全局”互补优势。TLCP-EPE 在多个独立测试集上展现了优异的预测精度、泛化能力和计算效率（处理 1,000 条编码序列仅需约 8 分钟），为大肠杆菌重组蛋白表达预测提供了新方法。未来，整合蛋白质结构、RNA 二级结构等多模态信息，拓展至酵母和哺乳动物等其他表达宿主，以及实现表达水平的定量预测，将进一步提升该框架在蛋白质工程和高通量筛选中的应用价值。

【原文信息】

Transfer learning with pre-trained language models for protein expression level prediction in Escherichia coli

Chunhe Yang, YuLing Zhao, Ruoyu Wang, Haoran Li, Xiaoping Liao*, Hongwu Ma*

https://doi.org/10.1016/j.synbio.2025.11.012

转载本文请联系原作者获取授权，同时请注明本文来自科爱KeAi科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3496796-1541919.html

上一篇：JDD | 清华大学黄丽达团队：极端降雨后的异质性恢复轨迹及其驱动因素——以北京门头沟为例

欢迎参加科学网十佳博文评选活动！

主办单位：