zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

单细胞数据融合方法:SCALEX

已有 818 次阅读 2023-3-24 18:04 |个人分类:科普|系统分类:科普集锦

单细胞数据融合方法:SCALEX 

单细胞实验能够将样品分解成其组成成分、不同细胞类型和细胞状态。许多计算工具已经开发用于单细胞数据集的综合分析,所有这些工具都寻求从非生物噪声(例如不同供体、条件和/或分析平台的批量效应)中分离生物变化。随着单细胞研究的技术进步,整合任务的范围正在迅速扩大,单细胞研究的规模继续扩大,现在在某些情况下已经超过了100万个细胞。此外,检查样本类型的范围也在增加,现在的数据集通常包括高度异质的细胞亚集。最重要的是,随着单细胞研究变得越来越常规,新的研究应该与基础研究进行信息交叉引用。对集成工具的需求日益增长,这些工具可以管理大规模和复杂细胞类型组成的单细胞数据,同时还支持对现有数据集的精确校准和探索。 

目前大多数单细胞数据集成方法(SeuratMNNHarmonyConosSconorama BBKNN)都是基于跨批次效用搜索细胞对应关系,例如相似的单个细胞或细胞锚点/集群。这些方法有三个局限性。首先,它们容易混合只存在于某些批次的细胞群,这对于在每批中包含不重叠细胞群(即部分重叠数据)的复杂数据集集成成为一个严重的问题。其次,它们需要的计算资源随着细胞和批次数量的增加而急剧增加,使得这些方法越来越不适合今天的大规模单细胞数据集。最后,这些方法只能从当前正在评估的数据集中删除批处理效应。每次添加新的数据集时,都需要一个全新的集成过程,这将改变之前研究的现有集成结果。这种需求严重限制了工具持续集成新到达的单细胞数据的能力,而无需从头重新计算现有的集成,这种能力被称为“在线”数据集成。 

如今的单细胞实验中,在线数据集成能力变得越来越重要。最近开发的在线工具iNMF,迭代地应用集成非负矩阵分解(iNMF)来解耦与细胞身份相关的共享和数据集特定的因素,因此能够将新数据与现有数据集实时合并。另一个最近开发的包scvi-tools结合了scVIscArches,应用条件变分自编码器(VAE)框架对输入单细胞数据的固有分布进行建模和数据集成。然而,scVI的条件VAE设计需要在整合新数据时进行模型增强和再训练,这意味着scVI不是一种在线方法。需要注意的是,在线集成能力需要满足生命科学和生物医学中快速增长的需求:它能够将来自新的单细胞分析(来自实验室和临床)的数据与现有知识的大量语料库进行匹配,特别是来自以前的基础单细胞研究的数据。换句话说,在线集成能力避免了在分析额外数据集时增加和/或重新训练模型的需要,这既保留了来之不易的科学资源,又节省了大量的计算资源。 

这次,介绍一种在线单细胞数据整合方法:SCALEX,它作为一种基于VAE框架的异构单细胞数据在线集成方法。SCALEX的编码器被设计成一个数据投影函数,在投影单细胞时只保留批次不变的生物数据组件。重要的是,投影函数是一个广义函数,不需要对新数据进行再训练,因此允许SCALEX以在线方式集成单细胞数据。通过使用大量的基准数据集,证明SCALEX在集成精度、可伸缩性和计算效率方面大大优于在线iNMF以及非在线单细胞数据集成工具。这些优势使SCALEX特别适合于当今单细胞数据集(这些数据集随着生物学和医学单细胞研究的持续爆发而继续增长)的集成和研究利用。 

image.png  

1 SCALEX设计框架 

SCALEX 代码参见https://github.com/jsxlei/SCALEX,相关分析和比较结果就不赘述了,参见文献[1] 

参考文献

[1] Xiong L, Tian K, Li Y, Ning W, Gao X, Zhang QC. Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space. Nat Commun. 2022 Oct 17;13(1):6118. doi: 0.1038/s41467-022-33758-z. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

 

image.png




https://blog.sciencenet.cn/blog-571917-1381709.html

上一篇:单细胞RNA测序数据可视化工具比较
下一篇:臣服实验
收藏 IP: 39.128.55.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-6-6 06:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部