博文

aBIOTECH | 姚斌院士团队构建知识图谱增强大模型MEPAM，实现微生物产酶与催化的精准解析

已有 596 次阅读 2026-6-4 11:51 |个人分类:论文|系统分类:论文交流

aBIOTECH | 姚斌院士团队构建知识图谱增强大模型MEPAM，实现微生物产酶与催化的精准解析

酶作为高效生物催化剂，在工业、农业及环境等领域具有广泛的应用价值。这些应用通常要求酶具备高可溶性表达水平和高催化活性。尽管已有大量研究致力于筛选高效产酶宿主、优化发酵参数以及精确调控酶催化反应条件，但目前仍缺乏对这些因素在微生物产酶及其催化活性调控网络中系统层面的全面理解。

近日，中国农业科学院北京畜牧兽医研究所姚斌院士团队在aBIOTECH 发表了题为“Decoding enzymatic landscapes: a knowledge graph–enhanced large language model framework for microbial enzyme production and catalysis systems”的研究论文。该研究开发了MEPAM（Microbial Enzyme Production and Catalytic Activity based on LLM）——一个基于知识图谱增强的大语言模型的精准问答系统，实现了对酶的发酵生产条件、催化反应参数的高准确度、可溯源的智能问答（图1）。

研究团队首先利用检索式结合BioBERT、SciBERT和XGBoost三个机器学习模型（测试集准确率均>0.98），从Web of Science数据库中精准筛选出11,068篇与微生物发酵产酶，酶催化底物降解相关的高质量论文（图2）。

随后，构建了包括微生物发酵产酶，酶催化底物降解的两个三元组，确定三个实体（Microorganism, Enzyme and Substrate）和两个关系（Fermentation conditions and Enzymatic reaction parameters）。借助DeepSeek-V3和零样本学习策略，从论文摘要和结果部分抽取出12,434个实体和35,918条关系，构建起结构化知识图谱，抽取准确率达0.78，显著优于少样本学习和其他传统机器学习方法（图3）。在此基础上，团队融合检索增强生成(RAG)+提示工程，开发了MEPAM问答系统。该系统将11,068篇文献的结构化三元组数据存入NebulaGraph图数据库，并通过向量数据库实现全文语义检索，最终为用户提供文献可溯源、幻觉接近0的精准答案。

通过对知识图谱中12,434个实体和35,918条关系的系统分析，MEPAM揭示了微生物生产酶领域的核心知识网络。从生产菌株来看，酿酒酵母（占酵母属的95.7%）、大肠杆菌（占埃希氏菌属近100%）和里氏木霉（占木霉属的96.0%）是该领域研究最为集中的三大宿主菌株。从酶来看，水解酶（40.9%）和氧化还原酶（26.0%）占据主导地位，其中纤维素酶在水解酶中占比高达36.4%，醇脱氢酶在氧化还原酶中占25.2%。进一步分析宿主-酶配对关系发现：里氏木霉主要生产纤维素酶（55.5%）和β-葡萄糖苷酶（8.4%），酿酒酵母则主要生产纤维素酶和木糖代谢酶，大肠杆菌生产的酶种类更为多样（图4）。

更具体地，以工业领域最受关注的纤维素酶为例，MEPAM从知识图谱中抽取出涵盖纤维素酶的生产菌株、精确培养条件（温度、pH、碳源、氮源和发酵时间等）以及底物偏好性的完整网络（图5）。例如，对于Trichoderma reesei生产纤维素酶的最适温度主要集中在28 °C和50 °C、pH值为4.8–6.0，培养基中常用碳源为纤维素、乳糖、葡萄糖和Avicel等，常用的氮源为硫酸铵和尿素等；在催化反应阶段，MEPAM进一步回答了纤维素、羧甲基纤维素（CMC）、Avicel等不同底物在30–50°C、pH 5左右条件下的最适反应参数。这些信息能够为工业酶生产提供清晰、可验证的实验指导，充分体现了其在工业酶开发中的重要实用价值。

最后，对比实验表明，MEPAM在多项核心指标上均显著优于传统大语言模型：在Exact Match、Precision、Recall、F1-score和Faithfulness等评估维度上全面领先，其中答案准确率达到0.84（GPT-4o为0.55），幻觉率接近0（GPT-4o为0.33）（图6）。虽然由于引入检索增强机制，MEPAM的响应时间略长（约5秒），但显著提升了答案的可靠性和可验证性。

本研究核心创新点：

MEPAM的核心优势源于其“知识图谱增强检索”的技术原理，传统大语言模型如GPT-4o仅依赖模型内部参数化知识生成答案，当问题超出训练数据或需要精确实验参数时，极易产生“幻觉”——生成看似合理但实际错误的信息。MEPAM则首先通过检索增强生成（RAG）从结构化知识图谱和向量数据库中检索与问题直接相关的文献证据，再将检索结果作为上下文输入大语言模型进行答案生成。也就是说，MEPAM的回答是基于可追溯的实验数据提炼出来的，因此，在标准测试中，MEPAM的答案准确率达到0.84，幻觉率接近0。大语言模型+知识图谱的框架不仅为酶学研究提供了强大工具，更为其他生命科学领域构建领域专属智能系统奠定了基础。

MEPAM现已免费上线：http://180.76.108.212

引用本文：

Tong Q, Zhou L, Liu X, Liu X, Wu N, Wang Y, et al. Decoding enzymatic landscapes: a knowledge graph–enhanced large language model framework for microbial enzyme production and catalysis systems. aBIOTECH 2026:100059.

https://doi.org/10.1016/j.abiote.2026.100059

转载本文请联系原作者获取授权，同时请注明本文来自李楠科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3458049-1537847.html

上一篇：aBIOTECH | 浙江大学杨景华课题组综述植物线粒体基因编辑：从技术突破到育种应用
下一篇：aBIOTECH | 徐兆师/方正武团队联合解析小麦抗旱新机制：TaMYB2-TaMAP3K17模块调控活性氧清除的分子

欢迎参加科学网十佳博文评选活动！

主办单位：