||
空间转录组中差异表达基因识别的统计方法比较研究
空间转录组学(ST)是一项新兴的高通量技术,能够在保留组织内空间背景的情况下进行全基因组基因表达分析,为细胞功能、组织组织和细胞间通讯提供关键见解。ST 研究中的基本分析目标是在病理区域或疾病等级之间识别差异表达(DE)基因,例如在乳腺癌中,将原位导管癌与浸润性癌进行比较,以阐明发展和疾病背后的空间分辨分子机制。
已开发出多种统计框架用于空间转录组分析,每种框架都针对空间表达的不同方面。SpatialDE及其相关方法如 SPARK旨在识别在整张切片/组织坐标上表达水平平滑变化的时空变基因。C-SIDE将这一概念扩展到区域内的细胞类型特异性差异表达,通过整合时空转录组数据与单细胞 RNA 测序参考数据来推断每个点的细胞类型组成,随后对解卷积的表达谱进行计算机模拟差异检测。相比之下,针对比较预定义的组织学或病理区域的研究通常依赖于经典的非参数检验,如 Wilcoxon 秩和检验,由于其计算简单且在 Seurat等分析流程中广泛可用,因此仍为默认选择。
近期,spatialGE通过整合统计和空间建模方法扩展了这一工具箱,用于时空转录组数据中的差异表达分析。spatialGE 首先执行非空间检验(例如 Wilcoxon 秩和检验或双样本 t 检验)用于识别候选差异表达基因,随后仅将这些基因的子集应用于具有指数协方差结构的空间线性混合模型(LMM)。然而,ST 数据通常是零膨胀计数,t 检验和 LMM 并不适用,因为两者都依赖于正态性假设,而计数型或低表达基因会违反这一假设。在这种情况下,也考虑将双样本 z 检验作为 t 检验的更通用的替代方案。与 t 检验不同,z 检验不假设正态性,适用于任意分布的数据,包括计数或二元观察值,只要每个比较组的样本量足够大(例如,每个病理区域>50 个位点,这在 ST 数据中是典型的)。尽管如此,t 检验、z 检验以及 Wilcoxon 秩和检验都假设观察值独立;当存在空间相关性时,这种假设的违反会根据观察值之间成对相关性的幅度和结构,导致 I 类错误率膨胀或收缩。
尽管在这些方法学进步之后,对于空间转录组学(ST)数据差异表达(DE)分析现有方法的系统性评估,特别是在 I 类错误控制、功效、数值稳定性和计算效率方面,仍然缺乏,这凸显了在这一快速发展的领域中进行全面基准测试和方法学创新的迫切需求。
最近,Wang等人对真实数据集和模拟数据的初步分析揭示了 Wilcoxon 秩和检验在应用于空间相关 ST 数据时的局限性。具体来说,观察到 Wilcoxon 秩和检验在存在强空间相关性时倾向于导致 I 类错误率膨胀,从而增加了假阳性的数量。这一问题引发了关于功效估计有效性的担忧,并损害了空间转录组学研究结果的可靠性。鉴于大多数转录组数据表现出固有的空间依赖性,Wilcoxon 秩和检验中观察值之间独立性的假设经常被违反,这强调了需要更适用于空间结构数据的替代方法。
Wang等人考虑了两种潜在方法(SpatialGEE,https://github.com/yishan03/SpatialGEE):广义线性混合模型(GLMM)和广义估计方程(GEE)。许多研究人员将 GLMM 视为分析相关数据的金标准,因为它们在建模复杂的依赖结构方面具有灵活性,从而能够同时考虑固定效应和随机效应。然而,由于涉及大量参数和零膨胀计数数据,GLMM 在高维空间转录组学(ST)中可能面临计算挑战,这通常会导致收敛问题并带来巨大的计算需求。为了缓解这些计算挑战,作者们还研究了 GEE,这是一种边际建模框架,在鲁棒性和计算效率之间提供了平衡。与显式建模随机效应的 GLMM 不同,GEE 使用“工作”相关矩阵来有效考虑观测值之间的空间依赖性。更具体地说,首先在 GEE 框架内提出了广义评分检验(GST)并进行了实现。然后,比较了 GEE 的两种变体:常用的稳健 Wald 检验和 GST。 稳健的 Wald 检验需要在备择假设下拟合模型,并使用稳健的夹心估计量来计算标准误以考虑数据中的相关性。相比之下,GST 只需要拟合零模型,这增强了数值稳定性。
由于计算强度大以及在应用于零膨胀 ST 数据时存在收敛问题,作者们排除了 GLMM。除了针对零膨胀稀疏计数数据的模拟研究外,还将 Wilcoxon 秩和检验、双样本 z 检验以及一系列基于 GEE 的检验应用于来自 10× Genomics 的乳腺癌和前列腺癌真实数据集(图 1a 和 1b),以评估它们在检测肿瘤和正常组织之间差异表达基因方面的有效性。分位数-分位数(QQ)图揭示了 Wilcoxon 秩和检验的 p 值校准不佳,突出了在统计原则框架下进行全面比较研究的必要性。

图1 乳腺癌和前列腺癌的 H&E 染色图像和空间簇。(a) 乳腺癌的 H&E 染色图像(10×Genomics)。(b)前列腺癌的 H&E 染色图像及病理标签(10× Genomics)。(c)乳腺癌的空间簇(n = 100)。(d)前列腺癌的空间簇(n = 100)
参考文献
[1] Wang Y, Zang C, Li Z, Guo CC, Lai D, Wei P (2026) A comparative study of statistical methods for identifying differentially expressed genes in spatial transcriptomics. PLoS Comput Biol 22(2): e1013956. https://doi.org/10.1371/journal.pcbi.1013956
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-16 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社