||
GEEES:从多模态单细胞数据中推断细胞特异性基因-增强子互作
DNA顺式调控元件(如增强子和启动子)的基因调控是包括发育、分化、免疫、稳态和疾病在内的许多生物过程的基础。迄今为止,单模态单细胞技术能够从转录组学、表观基因组学或3D结构的角度研究基因调控机制,同时为推断基因增强子相互作用创造了机会。最近,新兴的多模态单细胞技术,如sci-CAR、SNARE-seq、SHARE-seq和ISSAAC-seq,可以同时描述同一细胞内的转录组和染色质可及性。 虽然与单模态实验相比,这种多模态实验最初产生的测量质量和/或通量较低,但来自10X Genomics的SingleCell Multiome ATAC +基因表达试剂盒的通量与单模态实验(即单模态scRNA-seq和scATACseq)相当。针对多模态scRNA-seq和scATAC-seq数据集的初始计算方法,以及针对其单模态数据集的整合方法,主要集中于细胞和亚细胞类型的鉴定和优化以及轨迹构建,而检测基因-增强子相互作用的方法进展则是次要的。
取决于它们是否来自多模态单细胞数据的整合管道,从多模态单细胞数据中识别基因-增强子相互作用的方法可分为两类(例如以scRNA-seq和scATAC-seq为基准的scIB方法)。由于集成的多模态单细胞数据在两个域中生成的细胞组可以被认为是耦合的,因此在该领域开发的FigR和snapATAC等方法类似于边际方法,适用于多模态单细胞数据。此外,还开发了几种方法,专门用于测量来自同一细胞的基因表达和染色质可及性的多模态单细胞数据。该方法使用基于增强子特异性重采样的背景零分布来考虑单个增强子的局部特征,并推断具有显著边际相关性的基因-增强子对相互作用。TRIPOD作为一种计算框架用于识别增强子-转录因子(TF)-基因三联体,并将增强子与介导转录因子的基因连接起来。scREG利用降维和顺式调控电位的概念以及推断的潜在嵌入来捕获基因表达、染色质可及性及其调控关系。最近,边际相关方法被应用于元细胞,以缓解单细胞数据常见的稀疏性问题。此外,SCARlink采用正则化泊松回归,提出了最早的多元回归模型,而这项工作正在审查中。
现有的研究有两个明显的缺陷。首先,所有的方法都集中于识别基因-增强子的相互作用,充其量是通过将一组细胞(例如符合细胞类型的细胞)视为同质的,而忽略了细胞亚群内调控模式的潜在异质性。这阻碍了捕获细胞类型内的调控动态,其中基因在发育过程中受到不同增强子的动态调控。其次,更重要的是,这些方法通常是作为大型研究的一部分出现的,并使用不同的指标、实验设置和基准数据集进行评估,这使得比较和选择它们变得具有挑战性。虽然使用大量实验技术建立了大量的基因-增强子相互作用,从单细胞数据集推断的基因-增强子相互作用与这些基准没有系统的比较。
为了解决细胞水平上调控模式的潜在异质性,Chen等人提出了一种新的计算方法GEEES(从多模态单细胞数据中识别细胞特异性基因-增强子相互作用,图1)从多模态单细胞数据来推断细胞特异性顺式调控相互作用。GEEES通过考虑由基因表达和基因-增强子对中增强子的可及性定义的细胞邻域来估计单细胞水平上的基因-增强子关联。GEEES使用各种金标准基因-增强子相互作用数据集,在多种多模态单细胞数据集上设计了一系列多元回归方法,并对GEEES进行了基准测试。令人惊讶的是,这些比较揭示了所有方法在标准评估指标(即AUROC、AUPR)方面与这些金标准数据集的表现不佳,揭示了验证从单细胞数据推断的这种相互作用与通过大量高通量实验确定的基因-增强子相互作用的局限性。在进一步探索这一观察结果时,作者们发现,虽然将细胞聚集成元细胞以减轻稀疏性问题并没有提高方法的性能,但基于基因-增强子对之间距离的调整产生了显着的改进。对金标准数据集的详细调查揭示了它们之间的次优一致性,并强调了出现在金标准数据集中的基因-增强子对往往具有较短的基因组距离。这强调了对“基础真相”实验数据的关键必要性,以验证从单细胞技术推断的基因-增强子关系,并对新兴方法进行基准测试。虽然GEEES在基准实验中对现有方法提供了很小但一致的改进,但它以基因-增强子相互作用矩阵形式提供的数据揭示了CD14+单核细胞调控模式的异质性。
图1 GEEES概述和基准测试管道。(a) GEEES将来自多模态单细胞数据集的基因表达矩阵和染色质可及性矩阵作为输入。它通过候选基因-增强子对矩阵,并以分数量化每个单细胞的关联强度。(b)基准管道概览。所列出的方法也使用元细胞和距离调整以及scREG进行评估。(c)用于基准测试的测试数据集及其相应的评估金标准数据集。(d)对单个数据集和总体数据集的基准测试实验的总体总结(总体)。每个数据集中的方法排名显示在带有数值性能指标的列中。数值性能指标是基于聚合金标准计算的,如果基因-增强子对通过该数据集的任何金标准验证,则该基因-增强子对为真阳性
在这项研究中,作者们提出并探索了从多模态单细胞数据中识别基因-增强子相互作用的不同类别统计方法。这些方法包括GEEES,一种在单细胞水平推断这种相互作用的细胞特异性方法,边际相关分析、cicero、多元和/或多响应回归方法(Adaptive、Sequential、MultiResponse、SCARlink),以及基于距离的方法scREG。用各种金标准数据集对高质量的多模态单细胞数据进行基准测试实验,结果表明所有方法的性能都很差。cicero和其他基准方法之间的可比性表明,目前的方法并没有充分利用染色质可及性和基因表达之间的相互作用。将每种方法与元细胞方法相结合以减轻单细胞数据模式的明显稀疏性并没有带来更好的性能。相反,一个简单的距离调整显著提高了所有方法的性能,并引发了最佳性能的GEEES。尽管如此,一种简单的基于距离的基线方法,优先考虑最接近的增强子,仍然与这些方法具有竞争力。对金标准数据集进行更深入研究发现,将这些方法的性能差归因于金标准数据集之间缺乏一致性和强距离效应。这些方法基于相关性,再加上同一细胞类型中调控模式的潜在异质性,进一步导致了从单细胞数据和大量3D染色质相互作用金标准获得的相互作用结果之间的差异。这种差异受到多种因素的影响,如混杂基因共表达、多模态单细胞数据的稀疏性等技术限制,以及基因-增强子相互作用和基因调控中的基因表达顺序性。总的来说,这些发现强调需要生成更好的基准数据集来验证单细胞推断的基因-增强子相互作用。
参考文献
[1] Chen S, Keleş S. GEEES: Inferring Cell-specific Gene-Enhancer Interactions from Multi-modal Single Cell Data. Bioinformatics. 2024 Oct 28:btae638. doi: 10.1093/bioinformatics/btae638.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-27 08:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社