zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

scIB:单细胞数据融合基准框架

已有 3761 次阅读 2022-2-18 08:45 |个人分类:科普|系统分类:科普集锦

给定一个疾病,围绕该疾病产生的单细胞数据会有许多个。这些单细胞数据的产生来自不同实验条件、不同实验室以及不同组织区域。如果我们想融合该疾病所有关联的单细胞数据,必须要解决的困难是:消除或者减轻这些不同单细胞数据之间复杂并且嵌套的批次效应(batch effect)。

 

何谓批次效应?简而言之,批次效应就是数据里不必要的技术偏差,这些技术偏差是通过处理不同批次细胞产生的。具体而言,这些效应来源于测序深度、测序通道、阅读长度、样品流通池、协议、实验室、样本获取预处理、样品组成、抽样时间等。此外,诸如组织、空间区域、种类、时间点等生物因素也会产生批次效应。

 

为了融合不同来源的单细胞数据以进行下游分析,接近50个数据融合方法(如果想查看已有单细胞数据融合方法可参见链接https://static-content.springer.com/esm/art%3A10.1038%2Fs41592-021-01336-8/MediaObjects/41592_2021_1336_MOESM1_ESM.pdf中的附表1)被提出。这些方法各有特点和局限性,如何选择适合用户的单细胞数据融合方法,是许多单细胞数据下游分析者很关心的事情。既然涉及选择单细胞数据融合方法,就涉及基准问题,在基准框架内需要对不同方法进行评估和打分。其中,scIBsingle-cell integration benchmarking)就是这样的一类单细胞数据融合基准框架。

 

image.png

1 scIB数据融合基准框架

 

scIB选用16种流行单细胞数据融合工具,并且执行13个单细胞数据融合任务(涉及23个批次和100万个单细胞,图2)。在开展单细胞数据融合任务过程中,使用14个度量指标来评估这些方法去除批次效应的能力。

 

image.png

2 13个单细胞数据融合任务

 

结果发现:对于复杂单细胞数据融合任务,ScanoramascVI两种方法表现良好;如果单细胞注释信息已知,scGenscANVI比大部分其他方法表现的都好;在windowpeak特征空间进行scATAT-seq数据融合方面,HarmonyLIGER是两种有效方法。详细结果比较,可参见原文(图3)。

 

image.png

3 scIB论文

 

后话

scIB论文的工作量非常大,相应的比较结果与分析也非常详实。另外,罗列的已有单细胞融合方法也很全面。如果自己不能够比较这么多方法选择适合自己的单细胞融合方法,可以参考scIB论文的比较与分析结论:对于复杂单细胞数据融合任务,选择ScanoramascVI;如果单细胞注释信息已知,选择scGenscANVI;如果进行 scATAT-seq数据融合,选择HarmonyLIGER

 

参考文献:

[1] Luecken MD, Büttner M, Chaichoompu K, et al. Benchmarking atlas-level data integration in single-cell genomics. Nat Methods. 2022;19(1):41-50. doi:10.1038/s41592-021-01336-8

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1325803.html

上一篇:mRNA表达无法取代蛋白质表达
下一篇:临床医疗维修店铺
收藏 IP: 183.225.51.*| 热度|

2 李宏翰 张鹰

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-25 12:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部