||
miDGD:利用多模态深度生成模型从单细胞mRNA表达预测miRNA表达
微小RNA(miRNA)是调节基因转录后表达的小型非编码 RNA,通过促进靶 mRNA 降解来塑造细胞转录程序。成熟的miRNA,无论是 5p 臂还是 3p 臂,引导 RNA 诱导沉默复合体(RISC),通过靶点识别后降解(图 1a),从而促进 mRNA 翻译抑制。组织研究显示,miRNA 调控具有高度组织特异性,有助于维持组织身份和稳态,并在多种疾病中发生紊乱,包括癌症发展过程中。这里,miRNA它们既具有致癌基因的功能,也具有抑癌基因的功能,因此是候选生物标志物和治疗靶点。例如,miR-9在胶质瘤中失调,miR-21 在癌症进展过程中广泛上调,而miR-122在肝细胞癌中下调。
虽然 miRNA 预计会表现出高度的空间时间表达模式并执行细胞类型特异性基因调控,但它们在单细胞水平上的研究仍然有限,只有最近的协议能够实现低吞吐量和非常规检测。为了缓解当前单细胞 miRNA 检测的局限性,已经开发出几种计算方法进行间接推断。无监督方法通过比较目标基因相对于所有其他表达基因的消耗来推断 miRNA 活性,最新方法包括 miTEA-HiRes 和 bayesReact。相比之下,监督模型可以学习 miRNA、其靶基因、转录因子和宿主基因表达之间的复杂关系,以直接预测 miRNA 表达。miRSCAPE 率先实施了这一策略,使用配对的批量 mRNA–miRNA 数据和极端梯度提升(XGBoost)从单细胞 mRNA 表达中推断 miRNA 水平。然而,因为它为每个 miRNA 拟合一个单独的模型,所以无法利用 miRNA 之间的共调控或共享结构,这可能限制训练样本效率和跨数据集的泛化能力。 此外,由于单细胞 RNA 测序(scRNA-seq)与批量 RNA 测序在分布和技术上的差异,包括文库制备、分离的细胞而非细胞混合物、稀疏的表达谱、dropout 率等,从单细胞 RNA 测序预测 miRNA 仍然具有挑战性并且缺乏用于评估的基准数据。
深度生成和表征学习模型的最新进展使得能够学习高维组学数据中的复杂相关性结构。这包括用于 scRNA-seq 去噪和整合的变分自编码器(如 scVI)、用于联合转录组和染色质可及性分析的多模态生成模型(如 MultiVI),以及基于 transformer 的基础模型(如 scGPT,在数百万个单细胞上进行预训练)。然而,这些高容量模型是在图谱规模的数据集上训练的,并未设计用于从 mRNA 预测 miRNA 丰度,而可用的训练数据量要小几个数量级。
深度生成解码器(DGD)非常适合这种设置。通过直接将样本特定的潜在变量作为可训练参数学习,而不需要编码器,它们需要的参数更少,并且比编码器-解码器架构在数据效率上要高得多。基于混合的先验进一步产生一个多模态潜在空间,该空间捕获了离散的亚群以及跨组织和癌症类型的连续变化。对于配对的 mRNA- miRNA 数据,这能够实现一个共享的低维表示,即使在相对较小的训练队列中也能捕获两种模态之间的联合结构。DGD 框架先前已应用于单细胞转录组学(scDGD)以及联合转录组和染色质可及性建模(multiDGD),展示了生物学上可解释的潜在结构和稳健的跨数据集泛化能力。
最近,Zamani等人介绍了 miDGD(图1,https://github.com/JakobSkouPedersenLab/miDGD),一种深度生成解码器,它学习配对的 mRNA-miRNA 表达谱的共享低维表示,并利用该表示仅从基因表达来预测 miRNA 表达。使用癌症基因组图谱(TCGA)作为核心跨癌症训练集,结合基因型-组织表达(GTEx)项目、R2 RNA 图谱和单细胞人类细胞系数据,作者们表明 miDGD 将样本和细胞组织成具有生物学意义的潜在聚类。从潜在表示中,miDGD 可以重建癌症类型特异性和普遍存在的 miRNA 表达模式。它还在强下采样条件下保持稳健性能,该下采样模拟了单细胞稀疏性。在批量组织和人类细胞系的 scRNA-seq 中,miDGD 在跨数据集预测精度方面优于其前身,从而能够在直接 miRNA 测量缺失的情况下实现改进的 miRNA 估算。综合这些结果,miDGD 被确立为一种深度生成框架,用于从批量和单细胞转录组数据中推断 miRNA 表达,能够从标准 RNA-seq 图谱中重建未测量的调控信息。
图1 miDGD 及其数据输入概述。a,miRNA(微小 RNA)与靶 mRNA 结合以调控表达并抑制翻译。b,从相同样本或细胞中测量的成对 mRNA 和 miRNA 表达谱。c,miDGD 模型训练和数据生成过程的示意图。该模型由表示、GMM(高斯混合模型)和解码器组成,在优化过程中(用红色框表示)进行更新。d,将训练好的 miDGD 应用于从新的 mRNA 表达数据集中预测 miRNA 表达。在此步骤中,仅优化测试样本的潜在表示,而 GMM 和解码器参数保持固定
参考文献
[1] Farhad Zamani, Asta Mannstaedt Rasmussen, Viktoria Schuster, Mathilde Hartvig Diekema, Anders Krogh, Jakob Skou Pedersen. miDGD: a multi-modal deep generative model predicts microRNA expression from bulk or single-cell mRNA expression bioRxiv 2026.05.29.727918; doi: https://doi.org/10.64898/2026.05.29.727918
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-28 04:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社