||
SuperCell2.0支持半监督式多模态元细胞图谱
对数十万细胞进行单细胞RNA测序(scRNA-seq)能够深入解析复杂组织的表型特征。在癌症领域,已针对多种肿瘤类型生成大型单细胞图谱,为肿瘤微环境(TME)提供了详细图谱。TME是一个动态生态系统,它塑造了癌症的进展和治疗反应。最近的技术进步现在支持通过单细胞多组学进行更丰富的分子分析,其中在同一细胞内测量多种模态。例如,CITE-seq将转录组与表面蛋白测量相结合,而10xMultiome则联合分析染色质可及性与基因表达。这两种技术均已应用于临床研究,生成了包含数万细胞、来自数十名患者多模态TME数据集。这些数据有望解析如巨噬细胞极化等细胞类型特异性调控程序,并最终提高我们治疗性靶向TME的能力。
对如此大的多模态数据集进行分析需要强大的计算方法,这些方法能够处理这些数据中相当大的稀疏性、高数量的细胞和样本,以及样本可能的不同来源。这种需求对于图谱级研究尤其迫切,这些研究整合了来自多个供体和解剖部位的多份样本,因此表现出必须为可靠的下游分析进行校正的显著批次效应。为了应对这些挑战,引入了元细胞的概念,元细胞被定义为转录组相似且互不重叠的细胞组,用于单细胞RNA测序。基于元细胞的方法已经被成功应用于大型肿瘤微环境数据集。在批次校正之前使用元细胞进行初始样本规模缩减的策略已被证明特别有效,提高了准确性和计算效率。
最近的工作将元细胞扩展到单细胞测序转座酶可及染色质(scATAC-seq)和流式细胞术数据,这为单细胞多组学数据分析带来了显著的进步。特别是,由于dropout噪声的减少,元细胞已被广泛用于单细胞多组学数据的基因调控网络分析。
目前大多数元细胞工具仍然保持单模态,这对于多模态数据集来说并不理想。因为当互补模态联合分析时,可以更准确地解析细胞身份。此外,基于元细胞的整合很少被评估超出转录组数据。考虑所有模态对于大型多模态图谱分析来说是一项宝贵的资产,其中不同的模态可能会受到特定批次效应的影响,需要进行校正,这将进一步增加计算负荷。
当前元细胞工具的另一个局限性在于,它们通常忽略先前的细胞类型注释,仅根据分子相似性对细胞进行分组。这可能导致混合生物学上不同细胞类型的纯度不高的元细胞。在实践中,获得完整和精确的注释具有挑战性,而粗略或部分的注释现在更容易获得,这得益于最近在自动化细胞注释方面的进展。类似于其他类型单细胞数据分析中使用的半监督方法,这些先验知识可以用于识别纯度更高的元细胞。
最近,Hérault等人介绍了SuperCell2.0(图1,https://github.com/GfellerLab/SuperCell/tree/supercell-2.0),一个用于单细胞多模态数据的半监督元细胞框架。SuperCell2.0通过跨模态的网络基础粗粒度处理,将高度相似的细胞合并为适合定量多模态分析的元细胞,包括大规模图谱整合。它还可以利用部分细胞注释的先验知识来提高元细胞质量。将SuperCell2.0应用于包含数十万细胞和数十位捐赠者的CITE-seq和10x Multiome图谱,能够在不同模态中表征TME和外周血中的干扰素预激巨噬细胞和单核细胞。基于这项分析,SuperCell2.0推导出干扰素预激单核细胞的可靠表面标记,并在健康捐赠者中进行了实验验证。

图1 SuperCell2.0构建半监督多模态元细胞。A SuperCell2.0的无监督工作流程用于具有两种模态的单细胞多模态数据。B SuperCell2.0的半监督工作流程用于单细胞多模态数据,其中部分细胞被注释为三种不同的细胞类型
参考文献
[1] Léonard Hérault, Aurélie AG Gabriel, Benoît Duc, Bastien Dolfi, Aisha Shah, Johanna A. Joyce, David Gfeller. SuperCell2.0 enables semi-supervised construction of multimodal metacell atlases. bioRxiv 2026.02.19.706848; doi: https://doi.org/10.64898/2026.02.19.706848
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-16 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社