||
单细胞数据融合方法:SCALEX
单细胞实验能够将样品分解成其组成成分、不同细胞类型和细胞状态。许多计算工具已经开发用于单细胞数据集的综合分析,所有这些工具都寻求从非生物噪声(例如不同供体、条件和/或分析平台的批量效应)中分离生物变化。随着单细胞研究的技术进步,整合任务的范围正在迅速扩大,单细胞研究的规模继续扩大,现在在某些情况下已经超过了100万个细胞。此外,检查样本类型的范围也在增加,现在的数据集通常包括高度异质的细胞亚集。最重要的是,随着单细胞研究变得越来越常规,新的研究应该与基础研究进行信息交叉引用。对集成工具的需求日益增长,这些工具可以管理大规模和复杂细胞类型组成的单细胞数据,同时还支持对现有数据集的精确校准和探索。
目前大多数单细胞数据集成方法(如Seurat、MNN、Harmony、Conos、Sconorama、 BBKNN等)都是基于跨批次效用搜索细胞对应关系,例如相似的单个细胞或细胞锚点/集群。这些方法有三个局限性。首先,它们容易混合只存在于某些批次的细胞群,这对于在每批中包含不重叠细胞群(即部分重叠数据)的复杂数据集集成成为一个严重的问题。其次,它们需要的计算资源随着细胞和批次数量的增加而急剧增加,使得这些方法越来越不适合今天的大规模单细胞数据集。最后,这些方法只能从当前正在评估的数据集中删除批处理效应。每次添加新的数据集时,都需要一个全新的集成过程,这将改变之前研究的现有集成结果。这种需求严重限制了工具持续集成新到达的单细胞数据的能力,而无需从头重新计算现有的集成,这种能力被称为“在线”数据集成。
如今的单细胞实验中,在线数据集成能力变得越来越重要。最近开发的在线工具iNMF,迭代地应用集成非负矩阵分解(iNMF)来解耦与细胞身份相关的共享和数据集特定的因素,因此能够将新数据与现有数据集实时合并。另一个最近开发的包scvi-tools结合了scVI和scArches,应用条件变分自编码器(VAE)框架对输入单细胞数据的固有分布进行建模和数据集成。然而,scVI的条件VAE设计需要在整合新数据时进行模型增强和再训练,这意味着scVI不是一种在线方法。需要注意的是,在线集成能力需要满足生命科学和生物医学中快速增长的需求:它能够将来自新的单细胞分析(来自实验室和临床)的数据与现有知识的大量语料库进行匹配,特别是来自以前的基础单细胞研究的数据。换句话说,在线集成能力避免了在分析额外数据集时增加和/或重新训练模型的需要,这既保留了来之不易的科学资源,又节省了大量的计算资源。
这次,介绍一种在线单细胞数据整合方法:SCALEX,它作为一种基于VAE框架的异构单细胞数据在线集成方法。SCALEX的编码器被设计成一个数据投影函数,在投影单细胞时只保留批次不变的生物数据组件。重要的是,投影函数是一个广义函数,不需要对新数据进行再训练,因此允许SCALEX以在线方式集成单细胞数据。通过使用大量的基准数据集,证明SCALEX在集成精度、可伸缩性和计算效率方面大大优于在线iNMF以及非在线单细胞数据集成工具。这些优势使SCALEX特别适合于当今单细胞数据集(这些数据集随着生物学和医学单细胞研究的持续爆发而继续增长)的集成和研究利用。
图1 SCALEX设计框架
SCALEX 代码参见https://github.com/jsxlei/SCALEX,相关分析和比较结果就不赘述了,参见文献[1]。
参考文献
[1] Xiong L, Tian K, Li Y, Ning W, Gao X, Zhang QC. Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space. Nat Commun. 2022 Oct 17;13(1):6118. doi: 0.1038/s41467-022-33758-z.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 00:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社