||
构建和分析单细胞数据中的元细胞
随着单细胞测序变得更加经济实惠和广泛使用,单细胞基因组学数据集的数量和规模都呈指数级增长,并且没有放缓的迹象。目前,来自组织、器官和整个生物体的单细胞测序研究可以分析数百万个细胞。随着融合算法的发展,更大的图谱已经建立,数量达到数千万个细胞。历史上,大多数单细胞基因组学研究都集中在转录组学分析(scRNA-seq)上。最近,为了扩大我们对细胞复杂性的理解,其他模式已被整合到单细胞基因组学技术中,包括表观基因组学(例如scATAC-seq)、表面蛋白(例如CITE-seq)和B细胞中的适应性免疫受体(AIR)(即BCR序列)或T细胞(即TCR序列)。此外,现在可以在单细胞分辨率下同时分析多种模式,包括发现新的细胞类型、更好地表征已知细胞类型、识别基因调控相互作用和生物标志物,以及重构综合免疫库。
大多数单细胞基因组学数据集是使用基于液滴的测序技术生成的。组合条形码技术的进步进一步提高了单细胞测序的吞吐量,通过对大量细胞进行唯一标记并在池中对其进行集体测序。这些技术具有非常高的通量,使研究人员能够分析数百万个细胞,但由于低深度测序和逆转录/扩增程序的效率有限,灵敏度相对较低。最终导致许多转录本缺失,这在单细胞谱矩阵中被称为缺失或非生物零值。
通过多种方式同时分析数百万个细胞,为绘制健康和疾病中整个器官的异质性提供了前所未有的机会,但在分析和可视化这种大规模数据方面具有计算挑战。已经设计了几种方法来处理单细胞数据的大小和固有噪声。硬件和软件的开发使用户能够分析非常大的数据集,尽管这通常以速度和实用性为代价(例如需要使用具有非常高内存的专用机器)。已经设计了不同的降采样来减小数据大小。与此同时,已经引入了多种方法来解决缺失值问题,包括针对零膨胀数据的数据填充。最近,元细胞—被定义为高度相似的细胞聚集在一起的不相交的群体—被提出,它是在单细胞基因组数据中同时减小尺寸和提高信噪比的一种方法。
最近,Bilous等人回顾了引入元细胞概念的研究,开发了元细胞构建工具和质量指标,并使用元细胞进行单细胞测序数据分析。作者们讨论了使用元细胞的优点和缺点,并提供了构建元细胞和在元细胞级别分析单细胞数据的建议。这些建议都附有一个全面的教程(https://github.com/GfellerLab/MetacellAnalysisTutorial)和一个集成的管道,允许用户使用不同的工具(https://github.com/GfellerLab/MetacellAnalysisToolkit)构建和分析元细胞。
元细胞概念
元细胞被定义为将单细胞数据划分为高度相似的不相交的同质细胞群(图1)。这一概念假设:依赖于元细胞内的大多数可变性对应于技术噪声,而不是生物学相关的异质性。因此,元细胞旨在去除一些噪声,同时保留单细胞数据的生物信息并提高可解释性。元细胞概念是由Baran及其同事于2019年提出的,其动机是从稀疏单细胞数据中获得鲁棒性数据。与此同时,Iacono及其同事提出将类似细胞聚集成元细胞(在原始研究中称为“iCells”),以克服在大规模计算框架内分析大型scRNA-seq数据带来的计算负担。这两项开创性的研究反映了元细胞使用的两个主要方面:(i)增强稀疏scRNA-seq数据中的信号;(ii)降低大规模单细胞基因组学数据的计算负担。从那时起,建立在元细胞概念的基础上,其他几项研究将其应用扩展到其他单细胞模式,包括scATAC-seq、流式细胞术、AIR以及多模式单细胞数据。
图1 元细胞构造的主要步骤。从单细胞图谱矩阵开始,首先定义了空间和指标,用于识别在其图谱中显示高相似性的细胞。其次,高度相似的细胞被归为元细胞。第三,聚合每个元细胞中的单细胞表达谱,以创建元细胞表达谱矩阵。点表示按细胞类型着色的单个细胞
元细胞旨在保存并可能改善单细胞基因组学数据集中的生物信号,同时减小其大小以便下游分析。MetaCell、MC2、SuperCell 和SEACells等许多工具都可用于构建元细胞。元细胞已被有效地应用于各种研究中,用于多种类型的下游分析,并且证明可用于单细胞图谱的分析和表示。此外,元细胞已被用于将现有的计算方法扩展到更大的数据集和增强数据集的鲁棒性和可解释性。在元细胞级别执行数据集成已被证明不仅促进了集成过程,而且还通过减少样本内噪声来增强结果。在未来,预计元细胞将特别适用于构建、分析和存储非常大的单细胞图谱。
当对来自不同细胞类型的转录相似细胞进行分组时(例如,在同一元细胞中混合CD8和CD4 T细胞),或者忽略元细胞可以具有不同大小的事实时,大多数伪影都会出现。因此,在使用和分析元细胞时,了解这些伪影非常重要。为此,作者们建议基于一些细胞类型注释(实验可用或基于预测工具)来评估元细胞的纯度,并检查它们的紧凑性和分离性,以标记潜在的伪影。作者们还建议使用考虑元细胞大小(即权重)的下游分析管道。
到目前为止,元细胞主要应用于单细胞转录组学,但这一概念可以扩展到其他模式数据。考虑到这些数据越来越多地大规模生成,元细胞构建管道将被使用并为它们量身定制。综上所述,元细胞显著增加了图谱覆盖率(即由于scRNA-seq数据中的转录缺失而降低了稀疏性),提高了可解释性,减少了下游分析所需的计算资源,同时保留了生物学相关的异质性(图2)。因此,元细胞可以被视为介于稀疏和部分冗余的单细胞水平和过度简化的集群水平之间的优化结构。元细胞为我们提供了一个强大的框架,用于可视化、分析、存储和共享大规模单细胞基因组学数据。
图2 元细胞增加了表达谱覆盖面并节省了计算资源,同时保留了单细胞基因组学数据中生物学相关的异质性
参考文献
[1] Bilous M, Hérault L, Gabriel AA, Teleman M, Gfeller D. Building and analyzing metacells in single-cell genomics data. Mol Syst Biol. 2024 Jul;20(7):744-766. doi: 10.1038/s44320-024-00045-6.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 20:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社