||
给定一个疾病,围绕该疾病产生的单细胞数据会有许多个。这些单细胞数据的产生来自不同实验条件、不同实验室以及不同组织区域。如果我们想融合该疾病所有关联的单细胞数据,必须要解决的困难是:消除或者减轻这些不同单细胞数据之间复杂并且嵌套的批次效应(batch effect)。
何谓批次效应?简而言之,批次效应就是数据里不必要的技术偏差,这些技术偏差是通过处理不同批次细胞产生的。具体而言,这些效应来源于测序深度、测序通道、阅读长度、样品流通池、协议、实验室、样本获取预处理、样品组成、抽样时间等。此外,诸如组织、空间区域、种类、时间点等生物因素也会产生批次效应。
为了融合不同来源的单细胞数据以进行下游分析,接近50个数据融合方法(如果想查看已有单细胞数据融合方法可参见链接https://static-content.springer.com/esm/art%3A10.1038%2Fs41592-021-01336-8/MediaObjects/41592_2021_1336_MOESM1_ESM.pdf中的附表1)被提出。这些方法各有特点和局限性,如何选择适合用户的单细胞数据融合方法,是许多单细胞数据下游分析者很关心的事情。既然涉及选择单细胞数据融合方法,就涉及基准问题,在基准框架内需要对不同方法进行评估和打分。其中,scIB(single-cell integration benchmarking)就是这样的一类单细胞数据融合基准框架。
图1 scIB数据融合基准框架
scIB选用16种流行单细胞数据融合工具,并且执行13个单细胞数据融合任务(涉及23个批次和100万个单细胞,图2)。在开展单细胞数据融合任务过程中,使用14个度量指标来评估这些方法去除批次效应的能力。
图2 13个单细胞数据融合任务
结果发现:对于复杂单细胞数据融合任务,Scanorama和scVI两种方法表现良好;如果单细胞注释信息已知,scGen和scANVI比大部分其他方法表现的都好;在window和peak特征空间进行scATAT-seq数据融合方面,Harmony和LIGER是两种有效方法。详细结果比较,可参见原文(图3)。
图3 scIB论文
后话
scIB论文的工作量非常大,相应的比较结果与分析也非常详实。另外,罗列的已有单细胞融合方法也很全面。如果自己不能够比较这么多方法选择适合自己的单细胞融合方法,可以参考scIB论文的比较与分析结论:对于复杂单细胞数据融合任务,选择Scanorama和scVI;如果单细胞注释信息已知,选择scGen和scANVI;如果进行 scATAT-seq数据融合,选择Harmony和LIGER。
参考文献:
[1] Luecken MD, Büttner M, Chaichoompu K, et al. Benchmarking atlas-level data integration in single-cell genomics. Nat Methods. 2022;19(1):41-50. doi:10.1038/s41592-021-01336-8
以往推荐如下:
1. 因果推理综述推荐一篇
2. 生物学家的机器学习指南
3. 基础模型的机遇与风险
4. 一份单细胞数据分析教程
8. 国外知乎:Quora
11. 预印本知多少?
14. mRNA表达无法取代蛋白质表达
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 12:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社