||
DEEP-PLANT:植物调控基因组监督基础模型
解析 DNA 序列如何在复杂的真核基因组中产生基因调控活性,从转录因子结合和染色质可及性到组蛋白修饰和基因表达,仍然是基因组学中的一个核心挑战。这一挑战,通常被称为序列到功能问题,旨在利用现代深度学习结合大型数据集来揭示顺式调控元件如何控制发育程序、胁迫响应和物种特异性性状。理解顺式调控密码对于基础生物学以及在生物技术和农业中的应用都至关重要。
近年来,在数千个全基因组数据集上训练的深度学习模型已显示出在哺乳动物系统中模拟基因调控复杂性的能力在核苷酸分辨率上,提供对多样基因组学和表观遗传学数据的详细视图,包括转录因子结合、DNA 可及性和基因表达。这类模型与 DNA 语言模型互补,并在实践中为调控基因组学中的建模任务提供了更好的起点。
基础模型范式,即大规模模型通常以自监督方式在大量序列数据集上进行预训练,然后微调以用于下游任务,已成为调控基因组学中的一种强大方法。基于 Transformer 的 DNA 语言模型已在数百个物种上进行训练,并在基于序列的表示学习和基因组任务的迁移学习中表现出强大的性能。DNA 语言模型也已应用于植物,展示了专门代表植物基因组特征的模型训练的优势。
然而,调控功能并不仅仅编码在 DNA 序列中。在真核基因组中,DNA 嵌入在染色质中,基因调控通过染色质可及性、转录因子结合以及在不同组织和条件下的组蛋白修饰来介导。因此,仅基于序列训练的模型必须在没有这些调控层级的明确信息的情况下推断调控活性。相比之下,明确包含染色质状态的建模方法为调控功能提供了直接监督,有望实现更准确、可解释且具有生物学基础的顺式调控密码的表征。
基于序列的模型通过整合大规模染色质状态或表达数据集,能够直接对调控活性进行建模,从而为 DNA 语言模型提供了一种有效的替代方案。通过整合这些额外的信息层,此类模型为下游建模问题提供了一个有效的平台,与 DNA LLM 的作用类似,但通常具有更高的准确性、增强的可解释性和更快的训练速度。尽管这类模型在哺乳动物基因组中广泛存在,但在植物系统中却几乎缺失。尽管在植物中已有深度学习模型用于模拟染色质状态的具体方面,如 DNA 可及性或转录因子结合,但这些模型的规模和广度仍无法与哺乳动物基因组中可用的模型相媲美。随着 ENCODE 风格资源——如 ChIP-Hub等经过统一处理的植物表观基因组数据的最近出现,组装训练大规模染色质信息模型所需的数据集已成为可能。事实上,ChIP-Hub 背后的实验室最近使用深度学习分析了组蛋白修饰数据集,这项工作与这里展示的研究是互补的。
综合来看,这些观察结果表明当前植物调控基因组学方法存在明显不足。为解决这一问题,Daoud等人引入了 DEEP-PLANT(图1,),这是一种专门为植物基因组设计的监督式基础模型,可直接从 DNA 序列中建模染色质状态。该模型使用包含 28535 个拟南芥样本和 350 个水稻样本的大型数据集(数据来自 ChIP-Hub)进行训练,以预测 DNA 可及性、转录因子结合和组蛋白修饰。作者们证明,与 DNA 语言模型相比,DEEP-PLANT 在下游任务(包括直接从序列预测基因表达和活性增强子)中实现了更高的准确性和计算效率。此外,结果表明 DEEP-PLANT 学习到的表征可跨双子叶植物和单子叶植物迁移,从而促进跨不同植物物种的深度学习模型开发。这确立了 DEEP-PLANT 作为解释植物基因组核苷酸水平的有价值资源,与 DNA 语言模型形成互补。

图1 Deep-Plant 的示意图。该模型通过集成卷积层和 Transformer 编码层的架构处理来自拟南芥和水稻的 2.5 kb 长度的 DNA 序列。预测头输出染色质状态特征,包括组蛋白修饰、DNA 可及性和转录因子结合。微调模型可实现下游应用,如基因表达和增强子活性预测
总体而言,这项工作将监督基础模型范式引入植物调控基因组学,并确立了基于染色质的建模方法作为可扩展且具有生物学基础的植物基因组解释途径。
参考文献
[1] Ahmed Daoud, Soumyadip Roy, Haoxuan Zeng, Xinyu Bao, Zhenhao Zhang, Jiakang Wang, Paul Parodi, Anireddy SN Reddy, Jie Liu, Asa Ben-Hur. Deep-Plant: a supervised foundation model for plant regulatory genomics. bioRxiv 2026.04.06.716755; doi: https://doi.org/10.64898/2026.04.06.716755
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-2 02:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社