||
Memento:单细胞转录组数据差异表达分析
基因表达本质上是由细胞的遗传结构及其环境相互作用决定的,由于内部噪声(源于mRNA转录和降解)和与细胞特定状态相关的外部噪声,基因表达可能会出现波动。虽然遗传和历史环境显著影响细胞群体的表达变异性,但随机转录噪声也会影响细胞对扰动的反应,以及细胞的发育和分化。表征确定性和随机因素如何共同影响基因表达的分布,对于理解转录控制是如何建立、维持和可能被打破的生物学问题至关重要。这些见解可以阐明基因型-表型关系尚未完全解释的潜在机制,如不稳定、不完全外显性和可变表达性。
基因表达在细胞群体中的分布主要是由其均值和方差以及相关的衍生测量来表征的。组成表达的管家基因,以恒定的速率进行转录和降解,预计符合泊松分布。尽管如此,大多数基因表现出过度分散,表现出比预期更高的方差,并且在同一生物通路中的基因通常是转录相关的。这些观察结果与一个模型一致,即相关基因的表达受到类似的顺式调控元件的调控,这些顺式调控元件与一组在“开”和“关”状态之间循环的转录因子相互作用。直到最近,研究基因表达的分布,特别是多基因的联合分布,在技术上一直具有挑战性,并且主要是在可以进行基因改造的模式生物中进行的。
单细胞RNA测序(scRNA-seq)已经成为一种系统和有效的方法,用于分析细胞转录组的实验因素,包括细胞外刺激、遗传扰动、和自然遗传变异。理论上,对scRNA-seq数据的分析可以揭示确定性因素和随机因素如何共同塑造基因表达的分布。然而,仍然需要差异表达分析方法来比较细胞组之间的分布参数,包括平均值、变异性和基因相关性。为了评估平均表达的差异,通常的做法是对伪bulk进行差异表达分析,伪bulk是通过聚集由聚类定义的细胞组的转录本计数生成的。虽然伪bulk方法不能完全利用单细胞作为重复测量,但它们的性能出奇地优于明确模拟观察到的scRNA-seq数据分布的方法。此外,很少有方法可以评估基因表达变异性的差异和基因对之间的相关性。
由于两个关键的统计限制,scRNA-seq数据的广义差异表达分析仍然是一个巨大挑战。首先,将观察到的细胞间变异性分解为其组成成分——生物和测量噪声——是一个重大障碍。这种困难源于参与基因转录和scRNA-seq采样过程的生化反应的分子数量较少(图1A)。大多数现有方法实现参数化模型,旨在解释观察到的稀疏转录计数中高于预期的方差。然而,这些模型并没有明确地模拟测量噪声,这是scRNA-seq工作流程固有的欠采样特性的副产品。重要的是,准确估计生物变异对于有效地模拟基因对之间的相关性至关重要。其次,建立细胞群之间的平均、变异或基因相关性的特定比较的统计显著性仍然是一个很大程度上未解决的问题。许多现有方法利用渐近理论来确定比较均值的假设检验的显著性,经常产生未校准的p值。对于需要进行数千次比较的研究来说,这尤其成问题,因为校准不充分的p值违反了多次检验校正的假设。此外,大多数现有方法都需要精确的参数模型说明,并且在有效地结合层次结构和连续协变量方面缺乏灵活性。因此,它们没有明确地说明从容纳越来越多的个体或条件的多路工作流程中固有地产生生物和技术复制。像DESCEND这样利用灵活定义的广义线性模型的方法是明显的例外,理论上可以有效地解决这一问题。然而,这些模型在模拟scRNA-seq数据中固有的复杂层次结构时经常遇到重大的计算障碍,并且仅限于特定的细胞-细胞变异性模型。事实上,最近的研究已经报道了scRNA-seq方法在测试平均差异时,与伪bulk方法相比,表现出惊人的不足。
为了解决这些统计和方法上的挑战,Kim等人提出了Memento,这是一种端到端方法,它实现了一个分层模型,用于估计scRNA-seq数据的平均值、残差和基因相关性,并为这些参数的假设检验提供了一个统计框架(图1B)。Memento采用多变量超几何采样过程,并利用scRNA-seq数据的稀疏性来实现自启动策略,以便对细胞组之间的估计参数进行有效的统计比较。通过模拟和分析真实数据,作者们证明了Memento在一系列基因表达分布和采样效率上产生准确的参数估计,计算出适合多次测试校正的校准测试统计量,并实现了亚线性运行时间。Memento在四种应用中的展现出广泛适用性,这些应用旨在阐明实验和遗传因素如何影响人类细胞中基因表达的分布(图1C)。首先,作者们对7万个经细胞外干扰素(IFN)刺激的气管上皮细胞进行了scRNA-seq测序,并研究了刺激如何暂时调节应答基因的变异性和相关性。其次,对170,000个T细胞进行了Perturb-seq,并绘制了定义广泛T细胞激活方面的基因调控网络。第三,重新分析了从250个个体中收集的120万个细胞,以确定特定细胞类型中与平均值、变异性和基因相关性相关的遗传变异。最后,利用Chan Zuckerberg Initiative (CZI) CELLxGENE应用程序编程接口(API),方便部署Memento近实时比较任何任意细胞组在5000万细胞CELLxGENE数据语料库实现了一个近似的自展策略。在这些不同的应用中,与现有方法相比,Memento一致地确定了实验组之间平均表达的更显著和可重复差异。它还确定了表达变异性和基因相关性的差异,从而揭示了扰动所带来的转录调节的不同模式。Memento是用Python实现的,兼容scanpy,可以在https://github.com/yelabucsf/scrna-parameter-estimation中下载。
图1 Memento差分均值、可变性和基因相关性测试的工作流程。(A)单细胞RNA测序(scRNA-seq)的实验工作流程,在文库制备和测序过程中,对每个细胞内的RNA转录物进行取样。在scRNA-seq取样后,观察到的转录本计数中基因表达的平均值、变异性和相关性的模式不再与实际分布相似。(B) Memento将scRNA-seq建模为超几何采样过程,使用矩量估计方法估计表达分布参数(均值、残差方差和相关性),实现有效的自展来估计置信区间,并检验两组细胞之间表达参数的差异。(C) Memento的四种应用,表征了70,000人气管上皮细胞对细胞外细胞因子的反应,重构了被CRISPR-Cas9干扰的170,000人CD4 + T细胞的基因调控网络,绘制了162名系统性红斑狼疮(SLE)患者和99名健康对照者的1.2 M个外周血单个核细胞(PBMC)基因表达的遗传决定因素,并比较了CELLxGENE 数据库中任意组细胞的差异
Memento的当前迭代呈现出一些限制,为后续版本的改进提供了机会。首先,由于采用了自展方法,Memento目前不支持包含细胞级协变量或连续样本协变量。在这两种情况下,一种方法可能是基于细胞水平的协变量或连续协变量的离散化对细胞进行分组。其次,Memento的联合基因分析能力仅限于估计和比较基因相关性。考虑到许多生物通路在低维流形中运作,未来的增强应该能够涉及两个以上基因的综合联合分析。此外,Memento假设测试框架中固有的灵活性应该能够无缝地促进这些调整。
参考文献
[1] Kim MC, Gate R, Lee DS, Tolopko A, Lu A, Gordon E, Shifrut E, Garcia-Nieto PE, Marson A, Ntranos V, Ye CJ. Method of moments framework for differential expression analysis of single-cell RNA sequencing data. Cell. 2024 Oct 16:S0092-8674(24)01144-9. doi: 10.1016/j.cell.2024.09.044.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 23:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社