||
scCluBench:单细胞数据聚类算法的全面基准测试
单细胞 RNA 测序(scRNA-seq)通过实现细胞多样性、发育过程和组织结构的解析,极大地推动了生物研究。基于基因表达谱对细胞进行分组的 scRNA-seq 聚类分析,是 scRNA-seq 研究中的核心分析方法,研究并支撑着细胞类型表征、图谱构建和标记基因发现等关键任务。随着 scRNA-seq 数据集的规模和复杂度不断增加,实现稳健、可重复且具有生物学意义的聚类结果的挑战日益突出,凸显了先进计算技术的迫切需求。然而,目前还没有针对 scRNA-seq 聚类方法的全面和标准化的基准测试框架,这使得难以客观比较模型性能、评估跨数据集的稳健性和可重复性,以及为特定生物学背景选择合适的工具。
基于传统和人工智能方法,Xu等人提出了 scCluBench(图1,https://github.com/XPgogogo/scCluBench),一个用于单细胞 RNA 测序聚类的综合基准测试框架。scCluBench 在统一条件下系统地比较聚类算法,为单细胞 RNA 测序聚类基准测试的所有主要阶段提供标准化解决方案,包括数据资源、评估指标、生物学解释流程和统一的基准测试工作流程。

图1 scCluBench 概述:资源、评估协议和生物解释
(1) 基准测试资源的标准化
现有的单细胞 RNA 测序聚类基准测试往往缺乏数据集多样性,例如物种或组织类型有限,以及新兴模型的覆盖不足,特别是基于 Transformer 架构的生物基础模型的最新进展。scCluBench 提供了一组涵盖多种组织的 36 个人类和小鼠数据集。这个标准化资源,包括传统、基于深度学习的、基于图的和基础模型,能够对单细胞聚类方法进行系统评估和公平比较。
(2) 评估协议的标准化
scRNA-seq 聚类方法通常依赖于有限的定量和定性指标。因此,通过在多个数据集上整合多种定量指标以及定性评估(如细胞嵌入的 2D 可视化)来标准化评估流程。特别是,提供嵌入相似性的定量分析,以可视化方式系统评估表示崩溃等现象,并为模型选择和优化提供更广泛的视角。
(3) 生物解释的标准化
下游分析如标记基因识别和细胞类型注释对于解释聚类至关重要。scCluBench 提供了标准化的、可重复的标记基因检测和细胞类型标记流程,并辅以用于注释的金标准参考。这确保了聚类结果能够在生物学背景下得到验证和解释,从而促进单细胞研究的应用。
(4) 统一基准测试工作流程和模块化代码
scCluBench 提供了一个集成且可重复的数据预处理、聚类和细胞类型注释工作流程。标准化的输入-输出格式和模块化实现确保了易用性,并能够对所有模型进行公平且一致的性能比较。
通过构建 scCluBench,作者们系统地实现了比较分析,并确定了若干关键发现:
l 确定了三个对 scRNA-seq 聚类方法进行公平和有效评估的关键要素:多样化且具有代表性的数据集、广泛覆盖的计算方法,以及具有标准化输入/输出格式的统一且可重复的分析流程。
l 现有的 scRNA-seq 聚类方法存在明显但重要的局限性。传统方法在处理稀疏、高噪声数据时表现不佳。深度学习方法虽然在降维和去噪方面有效,但往往无法捕捉细胞之间的潜在关系。基于图的方法虽然提高了结构感知能力,但存在过度平滑和嵌入崩溃等问题。更根本的是,大多数方法将嵌入学习与聚类优化分离,导致嵌入空间不利于聚类,从而限制了整体性能。
l 当前的 scRNA-seq 基础模型通常设计为构建一个可迁移到多个下游任务的统一嵌入空间,优先考虑通用细胞表示而非特定任务的优化。尽管这种通用设计增强了跨任务迁移能力,但也降低了在特定任务(如聚类)中的性能。
参考文献
[1] Xu P, Wang Z, Wang Z, et al. scCluBench: Comprehensive Benchmarking of Clustering Algorithms for Single-Cell RNA Sequencing. arXiv preprint arXiv:2512.02471, 2025. https://doi.org/10.48550/arXiv.2512.02471
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-25 14:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社