||
单细胞RNA测序数据聚类的显著性分析
无监督聚类广泛应用于单细胞RNA测序(scRNA-seq)工作流程中。目标是检测不同的细胞群,这些细胞群可以被注释为已知的细胞类型或被发现为新的细胞类型。应用这些工作流的一个常见说法是,新的细胞亚型或状态已经被发现,因为聚类算法将与已知细胞类型相关的种群划分为多个组。但是我们怎么知道这种分裂是偶然发生的,即使只有一个细胞群存在?目前的方法没有考虑到这个问题。此外,由于最流行的聚类算法是启发式的,不依赖于底层生成模型,因此它们根本不是为统计推断而设计的。
作为一个例子,考虑Louvain和Leiden算法是由广泛使用的Seurat工具包实现的。一个标准程序是(1)将主成分分析应用于对数变换和归一化计数,(2)计算每对细胞的前30个主成分之间的欧几里德距离,(3)为每个细胞找到20个最近的邻居,(4)根据共同邻居的数量为每对细胞指定一个权重,并使用它来定义网络中的加权边,(5)将网络划分成最大模块化的簇。发现的集群数量与称为分辨率的调优参数有关,其最佳值通常通过手动检查集群或通过最大化与集群稳定性相关的标准来选择。请注意,没有提供一个潜在的生成模型来激励任何这些步骤,也没有评估由于自然无趣的随机变化而导致的结果变化的程度。因此,这些和其他类似的算法没有检查过聚类或过聚类的统计可能性,这分别导致无法检测到罕见种群或错误地发现新种群。
过度聚类可能特别危险,因为即使在只存在无趣随机变化的情况下,聚类算法也会对数据进行分区。此外,由于数据窥探偏差,也被称为双浸,被错误地聚集成两组的细胞可能具有似乎具有小P值的差异表达的基因。这是因为,如果我们将单个总体强制分成两个簇,算法将把彼此更相似的单元分配给同一组,但是在考虑零假设时,统计检验不会考虑这种选择。因此,如果不考虑这一统计现实,过度聚集的输出可能会显示出令人信服的差异。
除了使用scRNA-seq数据发现细胞群体之外,聚类的统计推断框架也已被引入。这些假设数据的基本参数分布,特别是高斯分布,其中不同的总体具有不同的中心。然后,通过询问这些集群是否可能在单个高斯分布的数据下合理地出现,可以以正式和统计严格的方式评估给定的集群集。如果是这样,那么集群集可能表示过度集群。然而,在scRNA-seq细胞群发现的背景下,许多这些方法的局限性在于只能比较一个与两个集群,而不是任意数量的集群,并且集群不能以分层方式进行。分层聚类的重要性(Significance of hierarchical clustering,SHC)通过在分层过程中纳入假设检验来解决这一限制。然而,由于高斯分布假设,SHC不能直接适用于scRNA-seq数据,对于这些稀疏计数数据是不合适的。
最近,Grabski等人扩展了SHC方法,提出了一个基于模型的假设检验框架,嵌入到scRNA-seq数据的分层聚类中。受先前探索性分析的启发,作者们定义了一个参数分布来表示细胞群,并开发了一种以两种方式实现的方法。首先,像SHC一样,该方法可以使用内置的假设检验来执行分层聚类,以自动识别代表不同群体的聚类。该方法称为单细胞SHC (sc-SHC)(图1)。为了允许对已经聚类的数据集进行显著性分析,作者们开发了一个可以应用于任何提供的聚类集的版本。sc-SHC方法纠正了多个顺序假设检验,并控制了错误率(FWER),具有可解释的聚类不确定性摘要。作者们还将sc-SHC方法扩展到批量标签的设置。作者们激发了在scRNA-seq聚类管道中对统计推断的需求,描述了sc-SHC方法的数学细节,根据流行的聚类工作流在真实数据上对sc-SHC方法进行了基准测试,最后展示了在人类肺细胞图谱和小鼠小脑数据集中的优势。
图1 sc-SHC方法示意图。a,sc-SHC用于决定所提议的双向分裂是否显著的测试示意图。展示了两个例子,其中一个模拟了两个不同的种群(顶部),另一个只模拟了一个种群(底部)。原理图显示了如何使用分层聚类将数据分为两个,为数据拟合单个参数模型,在该模型下模拟100个数据集,并将每个模拟数据集聚类并计算Ward链接。然后,将观察到的集群的Ward联系与这个经验零分布进行比较,以决定是否拒绝零假设。b、sc-SHC示意图。对所有单元(或预先计算的簇)进行分层聚类,并进行显著性分析,以决定是否将根节点分成蓝色和红色表示的两个簇。如果不能拒绝零假设,就停止,否则递归地继续执行测试,以决定是否拆分每个节点。
sc-SHC详细分析结果见文献[1],R代码参见:https://github.com/igrabski/sc-SHC。
参考文献
[1] Grabski IN, Street K, Irizarry RA. Significance analysis for clustering with single-cell RNA-sequencing data. Nat Methods. 2023 Aug;20(8):1196-1202. doi: 10.1038/s41592-023-01933-9.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 06:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社