||
多模态单细胞数据推断基因调控网络方法比较与评估
细胞响应细胞内和细胞外信号调节转录,主要通过转录因子(TF)进行,TF是一类结合 DNA 来影响基因表达的蛋白质家族。基因组 DNA 紧密堆积在染色质中,导致大多数基因无法接近。一些 TF 可以启动 DNA 可及性的变化,而其他 TF 可以结合近端区域(如启动子或远端顺式调节元件(cis-regulatory elements,CRE)),以募集和稳定 RNA 聚合酶复合物,以便从基因体中合成 mRNA。或者,TF 还可以降低基因可及性,阻碍转录机制并抑制基因表达。
DNA 区域、TF、靶基因和其他分子之间的相互作用形成复杂的调控回路,可以将其建模为基因调控网络(GRN)。这些网络通常以图形表示,其中节点代表 TF 和基因,边表示它们之间的调控关系。这些相互作用可以是正的,即 TF 激活基因的表达,也可以是负的,即抑制基因的表达。由TF调控的靶基因组称为 TF 调控子,调控子的集合形成 GRN。对 GRN 的分析为了解疾病中细胞身份的建立、维持和改变过程提供了宝贵的见解。
历史上,GRN 是从实验数据(尤其是bulk组学数据)以及汇集了多项检测结果的文献资料中从头推断出来的。单细胞多组学技术的出现,尤其是单细胞转录组学(snRNA-seq)和染色质可及性(使用测序的转座酶可及染色质检测,snATAC-seq)的联合分析,推动了整合这些多模态数据类型的高级计算方法的创建。尽管这些方法使用了多种策略,但在将 TF 与靶基因关联时执行相同的四个推理步骤:处理候选TF、CRE 和基因;将 CRE 分配给邻近基因;预测 TF 与 CRE 的结合;并通过数学建模识别最终的 TF-基因相互作用。与文献得出的 GRN 相反,这些方法可能能够推断出高度特定于上下文的调控相互作用。TF-基因相互作用可能因染色质状态而异,这使得这些方法特别有希望改善 GRN 重建。鉴于转录组学方法在过去的基准测试中显示出明显的局限性,这一点尤其重要。
这些数据类型的联合建模也面临着自身的挑战,因为当前的分析技术往往会产生稀疏和嘈杂的读数,它们需要计算集成方法,并且由于考虑的特征数量较多而增加了计算成本。尽管多模态 GRN 推理涉及跨方法的一系列共享步骤,但它们最初的实现往往是僵化的,不允许在其流程中使用其他方法。因此,它们的应用和比较仍然是一项艰巨的任务。此外,如果没有直接测量调控元件之间相互作用及其对大规模基因表达影响的技术,评估由此产生的网络仍然具有挑战性。现有方法缺乏全面的基准,因此仍然不清楚这些不同方法的表现如何,甚至与仅使用转录组学的方法相比,这种联合建模在多大程度上改善了推理。
最近,Badia-i-Mompel等人系统地比较了五种最近发表的多模态单细胞 GRN 方法以及四种替代方法。他们首先评估了方法之间的稳定性和重叠性,然后分析了配对和非配对多组学数据如何影响其结果。接下来,通过分离每种多模态方法的原始步骤并测试所有可能的方法步骤组合来检查不同推理步骤组合对 GRN 推理的影响。最后,作者们开发了一套全面的机制、预测和基于知识的指标来评估方法的原始版本和解耦版本。所有结果都是使用基因调控网络分析(图1,GRETA, https://github.com/saezlab/greta)生成的,这是一个免费的开源框架,用于比较和评估多模态GRN方法,在模块化的Snakemake管道中实现,可以轻松地运行它们的任何组合。作者们发现推断的 GRN 存在高度异质性,这在很大程度上取决于推理步骤的选择,并且在基准测试中表现一般。总体而言,Badia-i-Mompel等人的工作强调了 GRN 推理的复杂性,提供了应用现有方法的指导方针,并为该领域开发和基准测试新方法提供了一个灵活的框架。
图1 基因调控网络分析(GRETA)。GRETA 是一种灵活的Snakemake流程,旨在从单细胞多模态 RNA 测序和 ATAC 测序数据中推断、比较和评估基因调控网络(GRN)。其模块化设计允许任意组合推断步骤。使用 GRETA 生成的 GRN 可在 TF、边和靶基因之间进行比较,以评估不同条件下的稳定性。此外,GRETA 还包括一组评估指标,分为三类:机制指标、预测指标和基于文献的指标
分析转录组学(snRNA-seq)和染色质可及性 (snATAC-seq) 的单细胞数据集的积累促进了多种方法的发展,这些方法整合了这些数据以推断基因调控网络 (GRN)。这些网络将转录因子(TF)与可调控邻近基因的可及顺式调控元件(CRE) 联系起来。为了系统地比较和评估这些方法,作者们构建了 GRETA,这是一个框架,它集成并解耦了多种多模态 GRN 推理方法以及一些单模态方法的推理步骤。使用 GRETA,作者们探索了这些方法及其推理步骤之间的稳定性和一致性、它们对推理过程中使用的多模态数据类型的敏感性以及它们在不同任务中的表现。
结果表明,这些方法的稳健性有限,产生的结果彼此之间存在很大差异,并且受到使用的多模态数据影响。此外,即使在有限的共享调控相互作用中,也观察到了顺式调控相互作用方法使用相同数据进行 TF-基因预测的差异。这些差异可能源于 GRN 推断过程中做出的不同经验决策,以及每种方法使用的先验知识资源和基因组注释的差异。当前方法的这些局限性使评估新的相互作用变得复杂,因为技术差异性超过了生物信号。
多模态GRN推理方法的实现非常复杂,通常需要多种输入数据格式和具有挑战性的安装,并且需要高级编码技能才能有效使用它们。此外,它们的计算成本很高,因此用户需要访问高计算集群,从而限制了它们在更广泛社区中的可访问性。GRETA 通过提供模块化流程来减少这些障碍,该流程简化了工作流程,支持可重复性,并促进了 GRN 推理步骤的系统比较和新颖的组合。
作者们对配对和非配对多模态数据集的分析表明,尽管这两个数据集在细胞丰度和分子水平上相似,但推断出的 GRN 却有很大不同。单细胞多组学整合仍然是一个尚未完全解决的难题。例如,在 RNA 和 ATAC 整合中,通过基于基因启动子可及性计算基因分数将 CRE 转化为基因,然后用于在基因水平上匹配两种模态。虽然这种策略可以成功地将细胞映射到其匹配的细胞类型,但启动子可及性并不一定能保证基因表达,这使得将细胞映射到特定细胞状态成为一项艰巨的任务。具体而言,来自同一细胞类型的细胞彼此之间已经表现出较低的相关性,这表明可能无法实现 1 对 1 细胞的精细映射。因此,应尽可能使用配对数据来提高细胞状态映射和 GRN 推断的准确性。
此外,GRN 的拓扑结构可以根据其调控元件适度预测基因表达水平,并部分重现生物过程和已有文献的调控。然而,它们的性能并不比单模态方法好多少,除了Dictys。然而,所有方法在 TF 扰动任务中表现不佳。缺乏因果关系提出了一个问题:我们需要哪些其他模式或技术来实现可靠的反式调控预测。这一发现与其他评估工作一致,这些评估工作表明经典回归模型和新一波深度学习和基础模型也面临类似的挑战。从基于观察数据构建的 GRN 估计扰动数据中观察到的因果关系本质上是一个具有挑战性的问题。这一困难与以下事实相加剧:反式调控过程涉及多个步骤,仅靠基因表达或染色质可及性数据无法完全捕捉这些步骤。要使 TF 调控靶基因,其转录本必须首先通过核孔离开细胞核,翻译成蛋白质,通过翻译后修饰进行激活,重新进入细胞核,与其他核 TF 相互作用,并与靶转录起始位点 (TSS) 的可及染色质和有利条件相互作用以发挥调控作用。我们可能尚未完全理解或尚未发现的过程使这一复杂的事件链变得更加复杂。改善 GRN 推断的有前景的实验方法包括大规模系统扰动、TF 剂量动力学或染色质与蛋白质染色的联合空间 3D 可及性。从建模方面来看,预测基因组分子读数(如染色质可及性)的基于序列的模型可以纳入 GRN 推断方法,因为它们可以细化 TF 结合步骤以使其特定于上下文。
总之,本文提出了一个框架,以促进从单细胞多组学数据中推断、比较和基准化 GRN,提供的结果有助于理解现有方法的优缺点。本文结果表明推理方法选择会极大地影响结果,突出了需要更加关注这些方法的稳健性。
参考文献
[1] Badia-i-Mompel P, Casals-Franch R, Wessels L, et al. Comparison and evaluation of methods to infer gene regulatory networks from multimodal single-cell data. bioRxiv, 2024: 2024.12. 20.629764.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-2-13 05:49
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社