博文

单细胞RNA测序的大规模基准测试分析

已有 1570 次阅读 2025-12-1 09:26 |个人分类:科普|系统分类:科普集锦

单细胞RNA测序的大规模基准测试分析

随着单细胞RNA测序（scRNA-seq）进入其青少年时期，我们正在见证实验和数据集的规模和复杂性的快速增长。事实上，早期的scRNA-seq包括数百到数千个细胞，通常在单一条件下，没有生物复制。而当代的实验包括来自多个个体的细胞，测量各种条件（例如，治疗、基因型、健康状态）。通常，研究人员每次复制的目标是5-10,000个细胞，最终数据集很容易包含数十万个细胞。此外，单细胞图谱已经成熟，由于程序化访问，现在可以直接下载和本地分析由来自不同实验室多个器官的数百万个细胞组成的数据集。

从数据预处理到下游解释，这种不断增加的复杂性给整个分析管道带来了重大的计算挑战。这些挑战被许多scRNA-seq分析的探索性所加剧，这些分析需要以交互的方式处理大型数据集。例如，尝试不同的分析路径并探索下游结果，通常使用台式机或笔记本电脑而不是高性能计算（HPC），需要节俭而高效的工作流程。

典型的scRNA-seq分析工作流程从基因表达定量开始，该过程包括将读取分配给条形码、将读取与适当的基因组或转录组对齐，并通过计算分配给每个基因的唯一分子标识符（UMI）来定量基因表达。该过程通常在HPC集群中执行，并通常使用独立的软件或标准化的管道来完成。此步骤通常不是上述交互过程的一部分。

经过预处理后，分析工作流程包括以下步骤（图1a）：(i)质量控制；(ii)基因和细胞过滤；(iii)标准化；(iv)鉴定高变基因；(v)降维，通常使用主成分分析（PCA）或类似方法；(vi)数据可视化，使用t-SNE和UMAP等方法，这些方法通常应用于通过PCA降维的数据；(vii)聚类，用于识别具有相似转录组特征的细胞群；(viii)细胞类型注释，即使用外部参考数据集或已知标记基因的表达来标记细胞或聚类。

图1 PCA 基准测试和单细胞工作流比较概述。(a) 单细胞数据处理工作流的典型步骤示意图，包括质量控制、过滤、归一化、高变基因选择、降维（PCA、UMAP、t-SNE）、聚类（Louvain、Leiden）和聚类一致性评估。(b) 用于比较完整工作流的基于 R 和 Python 的单细胞 RNA-seq 分析框架列表：OSCA、Scrapper 和 Seurat（R）；Scanpy 和 rapids singlecell（Python）。(c) 基准测试中评估的 PCA 实现的总结，按编程语言（R 或 Python）、计算类型（CPU 或 GPU）、输入数据格式（密集矩阵、稀疏矩阵或 HDF5）、库名称和支持延迟计算分类。该表还指示每种方法的支持 SVD 算法（随机、精确、IRLBA、增量 PCA、ARPACK、Jacobi）。颜色表示这些方法是否在面板(c)的框架中实现（灰色表示未实现）

每一步都需要它自己的处理时间和内存使用，并且在过去的几年里，在不同编程语言（主要是R和Python）中已经提出了几种方法。尽管在文献中已经尝试对单个分析步骤进行基准测试，例如归一化、降维、聚类、轨迹推断、细胞类型注释、数据整合，但整个比较分析的工作流受到了较少的关注。Rich等人探讨了Seurat和Scanpy中参数选择及其默认值的影响，但没有彻底检查它们的可扩展性。另一方面，Tian等人在基准测试典型分析的所有不同步骤时，并没有考虑最受欢迎框架通常推荐的工作流。此外，用于基准测试的数据集相对较小，不足以解决可扩展性问题。

最近，Billato等人关注三种最流行的分析框架，即Bioconductor、scverse/Scanpy和Seurat（图1b）。对于Bioconductor，考虑了标准的单细胞分析编排（OSCA）工作流程和scrapper，这是一种更近期的、高效的实现，将大部分计算卸载到C++。为了比较这些工作流程，依赖于它们各自的文档，特意选择了“快速入门”或“基本”教程，这些教程包含了在任何分析中始终存在的步骤。

虽然传统方法依赖于CPU架构，尽管通常允许多线程和并行计算，但最近的努力已经探索了使用GPU来提高速度和可扩展性。因此，在基准测试中包含了rapids singlecell框架，这是一个开源库，它利用NVIDIA GPU实现了标准的单细胞分析工作流程（图1b）。在这种情况下，基准测试工具和工作流程对于评估不同方法在不同实验设置（如细胞数量、测序深度或生物学复杂性）中的性能至关重要（不仅在效率方面，而且要确保可扩展性不会以降低准确性的代价为代价）。

大规模单细胞转录组分析基准的目标有三：首先，旨在基准测试上述五个scRNA-seq工作流程，即Seurat、OSCA、scrapper、Scanpy和rapids singlecell；其次，通过以PCA作为示例分析步骤，探索更详细地说明不同的算法和输入选择如何影响方法的效率和可扩展性；最后，探索了高效的流程，在CPU和GPU上，为需要高效分析大量数据的用户建立指南和建议。

单细胞数据集的规模不断增长，单细胞图谱的可用性不断提高，使得工作流程的可扩展性，无论是速度还是内存使用，都变得至关重要。在这里，作者们比较了五种单细胞工作流程，包括流行的Seurat和Scanpy软件包，以及更具可扩展性的替代方案，在准确性和可扩展性方面。以PCA作为一个示例步骤，证明了输入类型、算法选择和软件配置都严重影响方法的可扩展性。

使用GPU加速单细胞分析是未来一个有前景的途径：虽然GPU在深度学习中被常规使用，在单细胞分析背景下也是如此，但它们在加速分析工作流程中的矩阵乘法和其它常见步骤方面的使用仍然不普遍。一个值得注意的例外是RAPIDS单细胞库，已经证明它在时间和内存使用方面都是准确和可扩展的。事实上，它们在PCA计算中的使用与最快的CPU替代方案相比，速度提高了大约15倍。需要更多的工作来使R/Bioconductor开发者能够轻松地在其软件包中利用GPU计算：GPUMatrix CRAN软件包似乎是一个有前景的起点来实现这一目标。

GPU的一个限制是可用的VRAM量：虽然此基准测试中使用的数据库足够小，可以放入VRAM，但对于更大的数据库，所需的内存量是GPU使用的一个关键因素，因为大于VRAM的数据库可能导致内存不足错误，或由于RAM和VRAM之间的数据传输而导致性能变慢。

BLAS/LAPACK优化对方法的计算性能有着深远的影响，这或许并不令人意外。实际上，同样的R代码通过链接到优化的BLAS/LAPACK，而不是使用默认的参考实现，可以加速15倍。在这个基准测试中，决定在R和Python中保留默认的BLAS/LAPACK版本，以模拟典型用户的使用体验，典型用户可能会保留默认的R安装，甚至可能没有意识到可以通过不同的BLAS/LAPACK实现获得如此重要的性能提升。尽管如此，建议是在R中使用优化的BLAS/LAPACK，并在Ubuntu中通过简单的apt命令提供相关说明。

最后，选择从每个软件框架中基准测试最基本的工作流程，模拟“基本教程”或“入门”指南。显然，现代单细胞RNA测序研究需要更复杂的分析，包括多样本比较、批次效应消除、基于参考的注释和多模态整合。优化代码和GPU加速对这些更复杂的算法的影响可能更为重要。

参考文献

[1] Ilaria Billato, Herve Pages, Vince Carey, Levi Waldron, Gabriele Sales, Chiara Romualdi, Davide Risso. Benchmarking large-scale single-cell RNA-seq analysis. bioRxiv 2025.10.28.681564; doi: https://doi.org/10.1101/2025.10.28.681564

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC