博文

StabCell：单细胞数据聚类和标记物检测

已有 690 次阅读 2026-5-30 14:58 |个人分类:科普|系统分类:科普集锦

StabCell：单细胞数据聚类和标记物检测

单细胞 RNA 测序技术为研究人员提供了关于生物组织及其细胞机制的深入见解，被广泛用于各种研究领域。该技术的主要应用目标是确定所研究组织的细胞类型构成。随着数据量的不断增加，手动标注细胞已变得不可行，因此需要采用可扩展的计算方法来处理这些数据。通常，首先对细胞进行聚类，以识别不同的细胞亚群。然后通过统计分析比较这些聚类，从而识别出在不同亚群中差异性表达的基因，这些基因可作为标记基因，用于对各个聚类进行分类。诱导多能干细胞是一个重要的应用领域。它们使得那些原本无法获取的细胞类型也能被研究起来，同时还能实现从多能状态到特定类型细胞的精确分化。这一过程能够使细胞恢复到成熟状态，从而模拟早期胚胎的发育过程。

通常，这类分析在聚类和检测差异表达时使用相同的数据，这可能导致 p 值被过高估计。这种选择性推断问题也被称为“双重分析”，被列为单细胞数据科学领域的十大挑战之一。尽管这个问题早已被人们所认识，但像 Seurat 这样的常用分析软件仍然采用这种方法，只是会发出“应谨慎解读 p 值”的警告而已。

仅仅将细胞划分为不同的子集以进行聚类和标记检测，是无法解决这个问题的。因为，当把某个子集的聚类标签转移到另一个子集时，相关信息也会随之转移。“计数分割”是一种能够避免这种信息泄露的数据处理方法。此外，还有其他一些方法可以解决这种选择性推断问题，比如对特定聚类方法进行 p 值校正，或者采用不依赖聚类的方法来进行标记检测。另外，像 ClusterDE和 Recall这样的方法，则利用人工生成的虚拟数据来进行对比分析。不过，这些方法都无法同时实现聚类和标记检测的功能。相反，有些方法确实将聚类和标记检测结合在了一起，但这些方法并未提供误差控制机制。例如，Zeisel 等人对细胞和基因进行了双聚类处理；Zhang 等人对细胞进行了层次聚类，并利用基因信息来动态确定分割阈值；Li 等人则采用了 EM 算法，同时结合了零膨胀负二项混合模型，还对各簇的均值与全局均值之间的差异进行了约束处理。

最近，Lück等人介绍了一种名为 StabCell 的新方法（图1，https://github.com/LuckyLueck/StabCell）。该方法为聚类分析和标记检测提供了有效的框架，并且能够充分利用所有细胞的信息来完成这两个步骤。StabCell 借鉴了稳定性选择理论中的相关概念，通过生成随机细胞对来实现其功能。这些互补的子样本中，每个子样本中的细胞都是独立地被分组分析的，从而可以确定各组细胞中基因表达的差异。将所有子样本的分析结果汇总起来，就可以得到每个细胞所属的组别，同时也能得到整个数据集的稳定分组结果。同样地，利用各子样本中选定的标记基因，可以计算出各组中这些基因的表达频率。将稳定性选择的标准应用于这些表达频率后，就能得到一组稳定的标记基因。模拟结果显示，所观察到的假阳性数量与预先设定的 PFER 目标基本一致。在模拟实验以及由诱导多能干细胞分化而来的心肌细胞的实验数据中，将 StabCell 与传统的分析方法及 Countsplit 进行了比较。研究结果表明，StabCell 能够实现较为准确的实证 PFER 控制效果，并能可靠地从各项指标中筛选出具有生物学意义的基因。同时，细胞稳定性评分则有助于量化集群分配过程中的不确定性。

图1 StabCell 的总体流程：a) 数据集被分为 B 个互为补充的子样本。b) 对每个子样本分别进行独立聚类处理。c) 所有子样本的聚类结果η^(b)(b = 1, …, 2B)会被与整个数据的初始聚类结果η进行对齐。d) 计算每个簇 k = 1, …, K 中细胞的分配频率π。这些频率被用来计算细胞的稳定性得分s，进而确定整个数据集的稳定聚类结果η^(stable)。e) 经过进一步的对齐处理后，会检查每个子样本中的标记基因S^(b)。f) 在所有子样本中，选择那些选择频率至少为τ的基因作为稳定标记基因

参考文献

[1] Niklas Lück, Andrea Rossi, Christian Staerk. StabCell: Stability selection for clustering and marker detection in single-cell RNA sequencing bioRxiv 2026.05.07.720061; doi: https://doi.org/10.64898/2026.05.07.720061

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC