||
单细胞基因组学中预处理和整合方法的基准测试
技术进步显著提升了我们生成高通量单细胞基因表达数据的能力。然而,单细胞数据通常来自多个实验,在捕获时间、人员、试剂、设备和技术平台等方面存在差异,导致数据存在较大波动。单细胞数据通常来自多个实验,捕获时间存在差异,这可能会在数据整合过程中混淆生物学变异。scRNA-seq 整合主要解决两个问题:生成细胞类型特征簇,以及判断簇是否代表真实的细胞类型,还是由生物学或技术变异(如特定批次效应或高线粒体含量)导致。尽管具有潜力,scRNA-seq 整合仍面临风险,包括因无意义变异导致低质量簇识别,以及因相似细胞类型排列不当导致的偏倚性聚类。
Haghverdi 等人提出的一种流行策略通过识别数据集间的细胞映射,并在找到互近邻(MNN)后重构数据于共享空间中。该方法虽然能有效生成适合下游分析的标准化基因表达矩阵,但计算量较大。为解决这一问题,fastMNN 算法在 PCA 计算的子空间中应用 MNN 技术,提升了性能和准确性。类似地,Scanorama 在降维区域中搜索 MNN以进行批次整合。
scRNA-seq 整合分析通常包含四个模块:数据标准化、降维、数据整合和结果可视化。每个模块都有多种算法可供选择,形成大量可能的组合需要评估以确定最佳性能。这些组合的性能很大程度上取决于数据集的大小和类型,这给选择最佳算法和参数设置带来了挑战。这一挑战需要大量的计算资源、时间和专业知识。
最近,Anaissi等人通过引入一个实证评估框架来应对这一挑战,帮助科学家评估 scRNA-seq 算法并为其数据集选择最佳组合。作者们使用多种评估方法研究不同类型数据集的最佳聚类模型组合。该框架分为三个部分:数据标准化、降维和数据整合(图1)。在标准化方面,研究了七种核心方法:Log 标准化、每百万计数(CPM)、SCTransform、TF-IDF、Linnorm、Scran 和 TTM。在降维方面,评估了 PCA、UMAP、t-SNE 和 PHATE。在数据整合方面,评估了 Seurat、Harmony、FastMNN、ComBat和 Scanorama。使用三种评估指标——轮廓系数得分、调整兰德指数和卡林斯基-哈拉巴斯指数——来检验聚类性能和时间效率。

图1 预处理和整合方法流程
该研究基于每个数据集的评估结果选择最佳模型,分析不同组合性能差异的原因。还提供了关于不同数据集类型和大小方法选择规则的见解,为未来模型选择提供数据支持。主要贡献如下:
1. 提出了一种经验框架,系统地评估了用于单细胞 RNA 测序数据整合的各种计算策略。该框架包括七种归一化方法、四种降维技术和五种整合方法,为单细胞 RNA 测序数据分析提供了一种整体方法。
2. 利用稳健的评估指标——轮廓系数、调整兰德指数和卡林斯基-哈拉巴斯指数,分析了 140 种方法的组合。这种评估阐明了性能效率和可扩展性,为它们在聚类细胞类型和从不同来源对齐数据集方面的适用性提供了关键见解。
3. 比较分析确定了单细胞 RNA 测序数据归一化、降维和整合方法的最有效组合。这为研究人员提供了一条战略路线图,促进了异构单细胞数据集的高保真整合,并增强了生物学见解。
作者们进行了一项比较分析,以评估由不同预处理方法和整合方法组成的流程在六个数据集上的性能。从结果可以看出,需要根据不同数据集的大小和其他特征选择不同的流程。此外,对于大型数据集,使用其子集可以大大提高比较不同整合方法的效率。基于七种归一化方法、四种降维方法和五种整合方法的组合进行了实验。结果表明,对于数据整合模块,Seurat 和 Harmony 的聚类性能更为突出,但 Harmony 的时间效率更好。同时,Seurat 在小型数据集上的性能更优。对于降维模块,UMAP 方法在与整合方法的兼容性上显示出良好的结果。由于其显著更短的计算时间,FastMNN 被推荐作为首选方法,其他方法可作为可行的替代方案。
参考文献
[1] Anaissi A, Zandavi S M, Huang W, et al. Benchmarking Preprocessing and Integration Methods in Single-Cell Genomics. arXiv preprint arXiv:2601.00277, 2026. https://doi.org/10.48550/arXiv.2601.00277
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-28 09:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社