||
细胞类型特异性空间可变基因检测方法基准测试
空间转录组学作为一种革命性技术,有效地捕捉了批量分析和单细胞测序方法中隐藏的基因组表达异质性空间背景。值得注意的是,由于生物学解释的不同,空间基因表达变异的两个相关概念需要区分。第一个是空间变异基因(SVG),这是一个广义概念,涵盖了组织中观察到的任何异质性空间表达模式,无论其变异来源如何。因此,SVG 的主要限制是它们在空间背景中与异质性细胞类型组成的混杂,通常偏向于细胞类型标记基因。第二个是细胞类型特异性 SVG(ctSVG),这是一个更精确的概念,专注于同一细胞类型内的空间基因表达异质性从而排除了由经常观察到的细胞类型组成变异性引起的普遍偏差。
从生物学角度来看,空间转录组学在识别细胞类型特异性空间变异数据(ctSVG)方面具有独特优势,为揭示受组织环境约束的分子模式奠定了基础。在癌症中,恶性肿瘤在癌细胞和基质/免疫细胞之间表现出显著的肿瘤内异质性,驱动了基因表达的细胞类型特异性空间变异。例如,在一项关于小细胞肺癌的最新研究中,含有表达水平升高的 SLFN11 的 ASCL1NEUROD1 区域与预后较差的 ASCL1 癌症亚型患者相关。通常,肿瘤呈现核心-边缘结构,其中上皮核心和侵袭性前沿对癌细胞和周围细胞的转录组特征产生不同的影响。在头颈鳞状细胞癌中,表达 CLDN4 和 SPRR1B 的癌细胞倾向于位于核心,而那些具有 LAMC2 和 ITGA5 过表达则位于边缘。在肾癌中,位于肿瘤边缘的巨噬细胞比其他空间区域的巨噬细胞表现出显著更高的 IL1B 表达。另一方面,癌细胞和基质/免疫细胞可能具有空间基因调控的巧合或交互模式。在结肠癌组织中,靠近 REG1ALCN2 癌细胞和杯状细胞的巨噬细胞被 SELENOP 和 STAB1 过表达标记,而靠近 TGFBIPERP 癌细胞或 FAP 成纤维细胞的巨噬细胞则被 SPP1 标记。此外,异质性邻域可以在细胞中塑造不同的基因表达特征,以癌症相关成纤维细胞为例。上述空间表达模式不仅限于恶性肿瘤。类似的调控模式也已在正常组织中广泛观察到,表明它们作为普遍存在的常见细胞适应原则,在组织状态中广泛存在。
从计算角度来看,传统算法主要集中于 SVG 而非 ctSVGs。在那些 SVG 检测算法中,有基于核的方法,如 SpatialDE(基于高斯过程)和 SPARK(基于泊松广义线性空间模型),以及基于图的方法,如 scGCO(基于无向 Delaunay 三角剖分转换图)和 Hotspot(基于有向 K 近邻图)。直到最近,才出现了大量研究致力于开发新的计算方法来识别 ctSVG。C-SIDE用泊松对数正态分布对空间基因表达计数进行建模,在其非参数模式下,用薄板样条基函数捕捉平滑的空间趋势。CTSV采用零膨胀负二项分布对原始计数进行建模,并结合三种类型的基函数来近似空间模式。spVC也建模空间计数数据,但使用广义泊松回归和过度分散的准泊松估计。spVC 采用两步测试程序:第一步识别具有恒定协变量效应和残差空间效应的基因,并在第二步使用完整模型对这些基因进行细胞类型特异性空间变异的进一步测试。与 C-SIDE 和 CTSV 不同,spVC 使用在三角剖分上的双变量惩罚样条基函数进行空间平滑。相比之下,STANCE和 Celina对标准化表达数据执行线性混合效应建模,同时使用核函数来模拟空间表达模式。它们也存在两大主要差异。一是如何处理随机效应:STANCE 通过每个细胞类型分解空间随机效应,而 Celina 仅将细胞类型特异性方差划分为空间和非空间贡献。二是核函数的使用:STANCE 利用一个基于距离的高斯核,而 Celina 则利用高斯、Matérn 和半参数样条核来捕捉各种类型的空间模式。 另一种近期方法,ctSVG,专为 Visium HD 设计,适用于高分辨率单细胞级空间数据,通过利用具有跨基因共享设计矩阵的 PreTSA回归框架,以高计算效率对标准化基因表达值进行建模。这些方法共同应对了分解细胞类型特定空间变异性的挑战,并为空间转录组分析提供了强大的工具。
目前,尽管针对传统 SVG 方法进行了许多基准测试研究,但这些 ctSVG 检测方法的系统评价仍然缺乏。因此,它们在组织组成和空间模式上的性能如何,以及当扩展到大型数据集时的计算效率和内存需求,仍基本不明确。这些问题凸显了超越理论分析的系统性比较基准测试的必要性。
为填补这一空白,Yao等人在多种实验和模拟场景下对 ctSVG 检测方法进行了系统评估。他们评估了它们的稳定性和相似性,量化了它们的预测性能,并评估了它们对组织切片旋转的鲁棒性。此外,他们还从运行时间和内存消耗的角度对它们的计算效率进行了基准测试。综合这些分析,为不同场景下的方法选择提供了实用指南,并深入了解了未来方法发展背后的关键问题。
作者们全面评估了六种最先进的 ctSVG 检测方法,在一致性、预测性能、旋转鲁棒性、可扩展性和生物学可解释性方面,以及在 46 个真实数据集和涵盖多种生物学和技术场景的广泛模拟数据集上对这些方法进行了基准测试(图1)。得出以下几项关键观察结果:(i) 当前算法在预测性能和计算效率上相互补充;(ii) STANCE 和 Celina 在多种空间模式上实现了更好的预测性能,而 C-SIDE、spVC、ctSVG 和 CTSV 则表现出对假阳性的更严格控制;(iii) STANCE、ctSVG、CTSV 和 Celina 在单细胞分辨率数据上具有更好的整体性能;(iv) 旋转不变性仍需进一步研究;(v) Celina 在大多数指标上似乎具有相对优势,尽管它倾向于产生受非目标细胞类型影响的虚假信号;(vi) 算法选择强烈影响下游生物学解释。

图1 ctSVG 检测方法的评估框架。本研究的数据集包括 46 个真实数据集、666 个模拟数据集、100 个点位置换数据集和 10 个坐标旋转数据集。所有点位级别和部分单细胞级别数据集均使用 RCTD 进行去卷积,然后进行 ctSVG 分析。评估了六种最先进的方法(spVC、Celina、STANCE、CTSV、C-SIDE 和 ctSVG),从以下关键方面进行评估:(1)跨方法一致性;(2)预测性能;(3)对切片旋转的鲁棒性;(4)在运行时间和内存方面的可扩展性。在此流程图中,GAPDH 是黑色素瘤(组织切片 MBM13)中一个肿瘤细胞特异性 ctSVG 的示例
参考文献
[1] Yao H, Mu S, He F, Fang Z. Benchmarking cell-type-specific spatially variable gene detection methods. Brief Bioinform. 2026 Mar 1;27(2):bbag190. https://doi.org/10.1093/bib/bbag190
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 02:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社