||
单细胞RNA数据标准化基准测试
近年来,单细胞 RNA 测序(scRNA-seq)已成为生命科学领域的一项开创性技术,为研究人员提供了前所未有的洞察力,深入了解细胞异质性和识别稀有细胞群体。Luo等人整合了五种不同自身免疫性疾病外周血细胞的 scRNA-seq 数据,揭示了 18 种不同的免疫细胞亚群。通过实现单细胞水平的分辨率转录组分析,scRNA-seq 显著增强了我们对于各种生物过程的理解,包括细胞发育和疾病进展。研究人员通过 scRNA-seq 揭示了疾病发展,并在肿瘤、脑血管疾病和阿尔茨海默病等复杂疾病中确定了新的治疗靶点。然而,这项技术的快速发展也带来了数据分析的巨大挑战,主要由于 scRNA-seq 数据集复杂且独特的性质。
scRNA-seq 的技术属性本质上使数据的准确解读变得复杂。单个细胞中有限的 RNA 含量需要扩增,这一过程由于不同基因和细胞间效率的差异而引入相当大的偏差,这个过程引入了技术噪声。此外,细胞周期效应会导致基因表达出现显著变化,从而产生可能与生物学表型不相关的系统性偏差。细胞间文库大小(测序深度)的差异,可能源于文库制备过程中的随机或系统性错误,同时也会引发 dropout 事件。这也是 scRNA-seq 数据高稀疏性的主要原因,进一步阻碍了基因表达水平的跨样本比较。由这些技术伪影产生的噪声和生物信号的扭曲掩盖了有意义的见解,并阻碍了后续分析。
为应对这些挑战,数据标准化已成为单细胞 RNA 测序分析中的关键预处理步骤,推动了针对稳健标准化方法开发的广泛研究。尽管已引入多种旨在减轻技术偏差、提升数据质量的方法,但尚未建立一种普适性方法,且其有效性在不同实验背景下仍未经验证。选择合适的标准化工具因算法原理、性能指标和应用范围的固有差异而变得复杂。某些方法可能过度校正,无意中移除真实的生物学信号,而另一些方法可能校正不足,未能充分解决技术变异性,这两种情况都会影响下游分析的可靠性。此外,单细胞 RNA 测序应用范围的扩展要求开发适应性、准确性和计算效率高的标准化方法。
鉴于现有归一化技术的异质性和缺乏系统性的基准测试流程,迫切需要全面的评估来指导选择合适的方法。最近,Ge等人系统地比较了六种广泛使用的 scRNA-seq 归一化方法,涵盖七个真实世界数据集和四个模拟数据集,采用多种评估指标,包括细胞聚类准确性、差异表达分析和计算资源消耗。该研究旨在为研究人员提供选择最佳 scRNA-seq 归一化策略的建议,从而最大限度地发挥这项技术在揭示新生物学见解和推动单细胞转录组学领域发展方面的潜力。
通过将六种广泛使用的标准化技术应用于各种单细胞转录组数据集进行了系统性的性能评估。结果表明,这些标准化方法的有效性取决于所涉及数据集的具体特征(图1)。值得注意的是,Dino 标准化方法在 10×数据集和细胞数量较多的数据集的聚类分析中表现出优异的性能。此外,它在模拟数据集的差异表达分析中展现出强大的能力。相比之下,scTransform 被发现特别适用于使用 SMART-Seq2 全长文库制备方案产生的数据集,而 SCnorm 被认为适用于较小的数据集。此外,这些方法的计算资源需求存在显著差异。该研究的结果为研究人员选择适合单细胞转录组数据的标准化技术提供了宝贵的指导,可根据其数据集的独特属性和研究目标进行选择。这一选择过程有望提高 scRNA-seq 数据分析的准确性和效率,并促进单细胞转录组研究的进展。

图1 展示了将单细胞 RNA 测序(scRNA-seq)标准化方法应用于真实数据集的基准测试结果。(a) 提供了这些基准测试结果的全面概述,其中每个气泡的大小对应于相应数据集垂直轴关联的评估指标值,而不同的颜色表示不同的评估指标。(b) 展示了每个单细胞 RNA 测序标准化方法在数据集 4、5 和 2 上获得的调整兰德指数(ARI)值。(c) 显示了每个单细胞 RNA 测序标准化方法应用于数据集 2 和 3 时获得的 ARI 值
参考文献
[1] Ge Q, Sheng Y, Lu J, Yang Y, Pan M (2025) Single-cell RNA-seq data normalization: A benchmarking study. PLoS One 20(12): e0335102. https://doi.org/10.1371/journal.pone.0335102
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-23 17:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社