||
DAZZLE:使用 dropout 增强改进基因调控网络推理
从表达数据中推断基因调控网络(GRN)提供了体内基因间相互作用的上下文模型。理解这些相互作用对于深入了解发育、病理以及可能适合治疗干预的关键调控点至关重要。
虽然基于批量转录组数据推断调控网络(GRN)已有较长的历史,但许多近期研究认为单细胞 RNA 测序数据(scRNA-seq)提供了更具体的上下文信息。单细胞 RNA 测序使研究人员能够分析单个细胞的转录组特征,相比传统批量方法,它提供了更详细和准确的细胞多样性视图。然而,机遇往往伴随着挑战。一篇关于 GRN 推断的最新基准论文总结了单细胞数据中导致 GRN 推断挑战的主要问题:细胞多样性、测序深度在细胞间的差异、细胞周期问题以及由于 dropout 导致的稀疏性。
尽管存在这些挑战,许多方法已仅从单细胞 RNA 测序数据中提出了针对特定上下文的基因调控网络推理方法。在已建立的方法中,GENIE3和 GRNBoost2是基于树的方法,最初是为批量数据提出的,但发现无需修改即可在单细胞数据上表现良好。LEAP估计伪时间以推断多个滞后窗口内的基因共表达,并建议滞后时间可用于推断调控关系。SCODE和 SINGE应用类似伪时间的概念,结合常微分方程(ODE)和格兰杰因果性集合来模拟结果。PIDC 使用部分信息分解来整合基因集之间的互信息,模拟细胞异质性。
其他方法通过整合转录组和其他数据源来推断 GRN。例如,SCENIC首先使用 GENIE3/GRNBoost2 识别基因共表达模块,然后识别调控这些模块或调控域的关键转录因子(TF)。scMTNI使用多任务学习框架研究不同细胞簇中的 GRN。GRNUlar通过结合 TF 信息,使用最近开发的展开算法从单细胞数据中推断无向 GRN。NetREX-CF基于先验 GRN 网络进行优化,并使用协同过滤来解决先前数据的完整性问题。PANDA使用消息传递进一步优化先验 GRN 网络。然而,在特定情境下,单细胞数据比整合的多组学数据集更广泛可用和易于获取。
神经网络(NN)在单细胞数据分析中的应用近年来取得了快速进展。作为基于神经网络的基因调控网络(GRN)推理方法的领先者之一,DeepSEM 参数化邻接矩阵,并使用在重建误差上优化的变分自编码器(VAE)架构。事实上,在“正确”网络(大约)已知的 BEELINE 基准测试中,DeepSEM 报告了优于其他方法的性能,并且比大多数方法运行速度显著更快。然而,DeepSEM 的一个问题是,随着训练的进行,推理网络的品质可能会迅速下降。一个可能的解释是,在模型收敛后不久,它可能会开始过度拟合数据中的 dropout 噪声。
单细胞数据通常具有过多的零表达计数,称为“零膨胀”。例如,以往研究通过检查的九个数据集中,观测到的57%~92%计数中有一定比例是零。在这些零值中,“dropout”描述了这种情况:转录本没有被测序技术计数,通常这些转录本在细胞中的表达水平较低或中等。后来的基于液滴的协议,如 inDrops和 10X Genomics Chromium,帮助提高了检测率。然而,“dropout”问题仍然存在,因为即使是最近的方法,其灵敏度也相对较低。
因此,已有针对单细胞分析的数据插补方法的研究。提出了几种方法来识别并用插补值替换缺失数据。然而,这些方法中的许多依赖于限制性假设,并且一些方法需要额外信息,例如 GRNs或批量转录组数据。
最近,Zhu等人为单细胞分析和 GRN 推理领域引入了两个新的贡献。首先,他们提出了“dropout augmentation”(DA),这是一种通过添加少量模拟 dropout 噪声来增强数据以减轻零膨胀问题影响的新方法。作者们发现,虽然这个想法看似反直觉,但它可以有效地正则化模型,使模型能够抵抗 dropout 噪声。
人们早已知道,在训练过程中向输入数据添加噪声,可以提高许多机器学习模型的鲁棒性,有时甚至能提升性能。Bishop 首先指出添加噪声相当于 Tikhonov 正则化。Hinton 进一步提出了在输入或模型参数上使用随机“dropout”来提高训练性能的想法。因此,DA 的理论基础也是坚实的。
作者们的第二个贡献是 DAZZLE 模型(图1,https://bcb.cs.tufts.edu/DAZZLE或https://github.com/TuftsBCB/dazzle),即用于零膨胀学习增强的 Dropout 增强。DAZZLE 使用了 DeepSEM 和 DAG-GNN引入的基于VAE的GRN学习框架,但它采用了dropout增强和若干其他模型改进。这些改进包括一种优化邻接矩阵稀疏性控制策略的新方法、简化的模型结构以及闭式先验。与DeepSEM相比,DAZZLE在基准实验中表现出更好的模型稳定性和鲁棒性。
图1 DAZZLE与DeepSEM之间一个主要的不同之处是Dropout增强的使用。Dropout增强通过在每次训练迭代中模拟少量随机dropout,使模型免受dropout 噪声的负面影响。带圆角的方框表示可训练的模型参数
参考文献
[1] Zhu H, Slonim DK (2025) Improved gene regulatory network inference from single cell data with dropout augmentation. PLoS Comput Biol 21(10): e1013603. https://doi.org/10.1371/journal.pcbi.1013603
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 18:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社