||
生物保守单细胞融合的深度学习方法基准测试
单细胞 RNA 测序(scRNA-seq)通过提供单细胞水平的高分辨率基因表达见解,极大地改变了我们研究细胞多样性的能力。随着 scRNA-seq 技术的进步,各种物种、组织和发育阶段的单细胞数据量显著增加,从数百个细胞增长到数千万个细胞。scRNA-seq 数据分析旨在理解不同疾病或发育阶段中细胞的基因表达和功能变化,帮助识别细胞变化的潜在机制。其中,数据融合是将从在不同的样本和时间点上,单细胞数据融合对于结合具有相似生物学背景的外部数据也至关重要。然而,由于潜在的数据偏差、高数据维度以及 scRNA-seq 数据中的稀疏性,从不同的实验、研究和平台整合大规模单细胞数据,同时保留关键的生物学见解,仍然是一个重大挑战。
已经开发了多种统计方法来处理 scRNA-seq 数据整合中的批次效应。一种策略是通过识别跨数据集的单细胞互近邻(MNN),包括 MNN、Scanorama和 Seurat V3。另一种策略侧重于平衡细胞近邻以防止批次特异性聚类,例如 Harmony和批次平衡 k 近邻(BBKNN)。此外,采用非负矩阵分解(NMF)来识别数据集共享因子以进行整合,如在 LIGER中所示。scMerge和 scMerge2利用稳定表达的基因或伪复制品来估计目标因子并减轻不必要的批次变异。虽然这些方法在对齐和整合 scRNA-seq 数据方面很有效,但它们通常在处理大规模数据集时遇到困难,特别是那些跨数据集表现出高细胞类型异质性的数据集。
基于深度学习的方法已成为单细胞数据整合更强大和灵活的解决方案。深度学习方法在学习和处理大型、高维复杂数据集方面的能力,增强了其获取关键生物变异的能力。自动编码器是一个通用的框架,用于学习高维单细胞基因表达数据的潜在数据表示。Li 等人开发了 DESC 方法,该方法采用自动编码器来推断 scRNA-seq 数据的无监督嵌入,并进行批次不变的细胞聚类分析。另一个值得注意的方法是单细胞变分推理(scVI),这是一个完全概率的深度学习框架,考虑了 scRNA-seq 数据中的生物噪声和技术噪声。scVI 使用条件变分自动编码器(cVAE)框架,将不同的批次视为变量,同时保留真实的生物基因表达信息。此外,深度学习框架促进了更复杂的模型设计,并增强了信息正则化。SCALEX 方法引入了一个无批次的编码器,用于将批次不变的嵌入投影到不同数据集。 此外,在图谱级别的数据整合中,预定义的细胞类型信息也可以被利用。单细胞变分推理注释(scANVI)通过结合现有的细胞状态注释扩展了 scVI,通过半监督学习方法提高了新数据集中细胞类型识别的准确性。类似地,包括 scDREAMER和 scDML在内的方法也可以利用预定义的细胞聚类信息进行半监督批次去除数据整合。
深度学习方法在单细胞数据批次校正和整合中的成功很大程度上取决于损失函数的设计。通常,这些方法的目标是消除不需要的批次效应,同时保留跨单细胞数据集的生物信息。批次效应和生物信号可以通过批次标签和预定义的细胞类型标签分别部分捕获。为了解决批次校正问题,采用对抗学习和信息约束等技术来最小化数据集中的批次特定信息。为了保留生物信息,使用监督域适应和深度度量学习等策略来确保细胞类型标签信息得到保持。在整合数据中。虽然不同的损失函数设计在不同的方法中有效,但缺乏对不同损失函数组合在单细胞数据整合任务中影响的横向比较。此外,在单细胞整合性能基准测试的背景下,单细胞整合基准测试(scIB)框架主要基于批次和细胞类型标签,在两个关键领域评估方法:批次校正和生物学保守性。虽然 scIB 为性能评估提供了坚实的基础,但它未能充分捕捉无监督的细胞类型内变异。随着深度学习模型的不断发展,需要更精细的基准测试指标,以准确评估批次效应校正和保留关键生物学信息。
最近,Yi等人开发了一种统一的变分自编码器框架,在该框架内构建了 16 种深度学习单细胞整合方法,分别对应三个不同的层次。这些方法旨在全面评估不同损失函数组合对数据整合的影响,利用批次信息、细胞类型信息或两者共同作用。通过分析不同损失函数配置下批次校正和生物学保守性的影响,作者们发现当前的基准评估指标和批次校正方法未能充分捕捉细胞类型内部的生物学保守性。这一发现通过人类肺细胞图谱(HLCA)和人类胎儿肺细胞图谱的多层注释得到了验证。为弥补这一不足,作者们引入了一种基于相关性的损失函数,以更好地保留生物学信号,并通过纳入细胞类型内部的生物学保守性对现有的基准评估指标进行了改进。进一步通过整合单细胞数据的差异丰度分析验证了这一结果。 该研究突出了深度学习方法在单细胞数据整合方面的潜力,精炼的框架和基准测试指标为整合过程提供了更深入的见解。这些进展有望推动深度学习方法的发展,以整合日益复杂的多模态和时空单细胞数据。
单细胞数据整合对于图谱级别的单细胞数据分析至关重要,深度学习方法的兴起拓宽了数据整合的应用,使人们能够更深入地理解各种生物学过程。Yi等人提出一个统一的基准测试框架,用于评估不同损失函数设计和信息正则化策略在数据整合任务中的表现(图 1A、B)。作者们还重新组织了现有的基准测试指标,并将其应用扩展到批次校正和细胞类型间及细胞类型内的生物学保守性(图 1C)。此外,使用多层细胞注释和发育单细胞图谱验证了扩展的单细胞整合基准测试(scIB-E)指标。此外,通过设计和验证一种专门用于保留细胞类型内生物学结构的创新损失函数,展示了该框架的实用性,并通过差异丰度测试得到了证实(图 1D)。

图1单细胞整合的多级损失正则化设计。A使用的统一变分自编码器框架。B实现的三个级联损失设计的示意图。C 单细胞数据整合后批次校正(顶部)、细胞类型间生物学保守性(中间)和细胞类型内生物学保守性(底部)的效果示意图。D Corr-MSE 损失设计的示意图(顶部)和生物学保守性单细胞整合的过程示意图(底部)
参考文献
[1] Yi C, Cheng J, Chen J, Liu W, Liu J, Li Y. Benchmarking deep learning methods for biologically conserved single-cell integration. Genome Biol. 2025;26(1):398. https://doi.org/10.1186/s13059-025-03869-z
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-19 21:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社