||
评估单细胞测序数据插值方法
单细胞RNA测序(scRNA-seq)技术的进步使得在单个细胞的分辨率上探索转录组成为可能。这可以潜在地揭示不同细胞类型之间的异质性和多样性。然而,尽管实验方案有所改进,但各种技术因素导致scRNA-seq数据存在大量噪声。此外,低转录本捕获效率和低测序效率可能导致大量零值或低读取计数,此现象定义为缺失事件。这些会破坏scRNA-seq数据并阻碍下游分析,如严重依赖于数据质量的新细胞类型鉴定和标记基因分析。
最近,许多研究报道了单细胞组学领域的新进展,突出了单细胞数据分析的重要性。特别是,引入了各种数据插值方法来解决缺失值问题。有些方法假设观察到的表达值背后的统计模型,并利用假设的模型来处理缺失值。一些人通过深度学习模型来计算缺失值。有些将深度模型与统计假设相结合。此外,还有一些方法是基于网络分析、相似学习或聚类。
由于数据插值的最终目的是恢复真实数据并获得更可靠的生物学见解,因此确定这些方法是否有助于后续分析,例如发现细胞簇,以及确定这些簇是否可以被标记基因区分并代表有意义的细胞类型。此外,尽管大多数方法在一系列基本分析任务中表现良好,但有人指出,数据插值可能会引入假阳性结果。因此,迫切需要对数据插值方法进行公正的评价,并指导如何根据不同的数据应用选择合适的方法。
在本研究中,Cheng等人基于数值恢复、细胞聚类和标记基因分析,对12个真实数据集和4个模拟数据集上的11种已知或适应的插值方法进行了系统评估。作者们首先从数值恢复的角度对这些方法进行了评估,并计算了插值误差,直接证明了它们恢复真实表达水平的能力。然后,评估了细胞聚类任务的方法,以确定它们在原始数据中恢复和增强底层聚类的能力。作者们更关注基于标记基因表达的评价方法,因为标记基因的研究是确定实际生物学意义的一种极好的方法。本研究揭示了各种归算方法的优点和局限性,为scRNA-seq数据分析提供了数据驱动的指导。
系统比较的结果表明,不同方法在不同数据集上的表现不同,这表明插值可能具有数据集特异性。特别是,基于下游分析评价的实验,大多数的插值方法对真实数据集的改进程度都很低。相比之下,模拟数据集总是得到改进。此外,没有统计模型的方法在模拟数据集上更有优势。一般来说,基于它们在细胞聚类和标记基因分析中的表现,推荐两种插值方法:SAVER和NE,用于下游分析。此外,推荐DrImpute和scImpute用于发现新的微妙细胞类型,因为它们在识别单个细胞的亚簇方面具有潜力。
Cheng等人发现的这个结论与Hou等人2020年发表的文献(Hou W, Ji Z, Ji H, Hicks SC. A systematic evaluation of single-cell RNA-sequencing imputation methods. Genome Biol. 2020;21(1):218. doi:10.1186/s13059-020-02132-x)结论的差异比较大。Hou等人对2020年以前的18种scRNA-seq插值方法进行了系统评估,以评估它们的准确性和可用性。他们发现,大多数scRNA-seq插值方法在恢复bulk RNA-seq中观察到的基因表达方面优于不插值方法。然而,大多数方法并没有提高下游分析的性能,特别是对于聚类和轨迹分析,因此应该谨慎使用。此外,他们发现在每个评估方面的方法的性能有很大的可变性。总的来说,发现MAGIC, kNN-smoothing和SAVER最一致地优于其他方法。
2023年和2020年发表的两篇插值方法基准评估的相同点是:在细胞聚类和标记基因分析中,都推荐使用SAVER插值方法。SAVER插值方法来自文献(Huang M, Wang J, Torre E, Dueck H, Shaffer S, Bonasio R, Murray JI, Raj A, Li M, Zhang NR. Saver: gene expression recovery for single-cell RNA sequencing. Nat Methods. 2018; 15(7):539.),其拓展方法为SAVER-X(Wang J, Agarwal D, Huang M, Hu G, Zhou Z, Ye C, Zhang NR. Data denoising with transfer learning in single-cell transcriptomics. Nat Methods. 2019; 16(9):875–8.)。
参考文献
[1] Cheng Y, Ma X, Yuan L, Sun Z, Wang P. Evaluating imputation methods for single-cell RNA-seq data. BMC Bioinformatics. 2023;24(1):302. doi:10.1186/s12859-023-05417-7
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 01:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社