博文

生物保守单细胞融合的深度学习方法基准测试

已有 3084 次阅读 2025-12-19 16:08 |个人分类:科普|系统分类:科普集锦

生物保守单细胞融合的深度学习方法基准测试

单细胞 RNA 测序（scRNA-seq）通过提供单细胞水平的高分辨率基因表达见解，极大地改变了我们研究细胞多样性的能力。随着 scRNA-seq 技术的进步，各种物种、组织和发育阶段的单细胞数据量显著增加，从数百个细胞增长到数千万个细胞。scRNA-seq 数据分析旨在理解不同疾病或发育阶段中细胞的基因表达和功能变化，帮助识别细胞变化的潜在机制。其中，数据融合是将从在不同的样本和时间点上，单细胞数据融合对于结合具有相似生物学背景的外部数据也至关重要。然而，由于潜在的数据偏差、高数据维度以及 scRNA-seq 数据中的稀疏性，从不同的实验、研究和平台整合大规模单细胞数据，同时保留关键的生物学见解，仍然是一个重大挑战。

已经开发了多种统计方法来处理 scRNA-seq 数据整合中的批次效应。一种策略是通过识别跨数据集的单细胞互近邻（MNN），包括 MNN、Scanorama和 Seurat V3。另一种策略侧重于平衡细胞近邻以防止批次特异性聚类，例如 Harmony和批次平衡 k 近邻（BBKNN）。此外，采用非负矩阵分解（NMF）来识别数据集共享因子以进行整合，如在 LIGER中所示。scMerge和 scMerge2利用稳定表达的基因或伪复制品来估计目标因子并减轻不必要的批次变异。虽然这些方法在对齐和整合 scRNA-seq 数据方面很有效，但它们通常在处理大规模数据集时遇到困难，特别是那些跨数据集表现出高细胞类型异质性的数据集。

基于深度学习的方法已成为单细胞数据整合更强大和灵活的解决方案。深度学习方法在学习和处理大型、高维复杂数据集方面的能力，增强了其获取关键生物变异的能力。自动编码器是一个通用的框架，用于学习高维单细胞基因表达数据的潜在数据表示。Li 等人开发了 DESC 方法，该方法采用自动编码器来推断 scRNA-seq 数据的无监督嵌入，并进行批次不变的细胞聚类分析。另一个值得注意的方法是单细胞变分推理（scVI），这是一个完全概率的深度学习框架，考虑了 scRNA-seq 数据中的生物噪声和技术噪声。scVI 使用条件变分自动编码器（cVAE）框架，将不同的批次视为变量，同时保留真实的生物基因表达信息。此外，深度学习框架促进了更复杂的模型设计，并增强了信息正则化。SCALEX 方法引入了一个无批次的编码器，用于将批次不变的嵌入投影到不同数据集。此外，在图谱级别的数据整合中，预定义的细胞类型信息也可以被利用。单细胞变分推理注释（scANVI）通过结合现有的细胞状态注释扩展了 scVI，通过半监督学习方法提高了新数据集中细胞类型识别的准确性。类似地，包括 scDREAMER和 scDML在内的方法也可以利用预定义的细胞聚类信息进行半监督批次去除数据整合。

深度学习方法在单细胞数据批次校正和整合中的成功很大程度上取决于损失函数的设计。通常，这些方法的目标是消除不需要的批次效应，同时保留跨单细胞数据集的生物信息。批次效应和生物信号可以通过批次标签和预定义的细胞类型标签分别部分捕获。为了解决批次校正问题，采用对抗学习和信息约束等技术来最小化数据集中的批次特定信息。为了保留生物信息，使用监督域适应和深度度量学习等策略来确保细胞类型标签信息得到保持。在整合数据中。虽然不同的损失函数设计在不同的方法中有效，但缺乏对不同损失函数组合在单细胞数据整合任务中影响的横向比较。此外，在单细胞整合性能基准测试的背景下，单细胞整合基准测试（scIB）框架主要基于批次和细胞类型标签，在两个关键领域评估方法：批次校正和生物学保守性。虽然 scIB 为性能评估提供了坚实的基础，但它未能充分捕捉无监督的细胞类型内变异。随着深度学习模型的不断发展，需要更精细的基准测试指标，以准确评估批次效应校正和保留关键生物学信息。

最近，Yi等人开发了一种统一的变分自编码器框架，在该框架内构建了 16 种深度学习单细胞整合方法，分别对应三个不同的层次。这些方法旨在全面评估不同损失函数组合对数据整合的影响，利用批次信息、细胞类型信息或两者共同作用。通过分析不同损失函数配置下批次校正和生物学保守性的影响，作者们发现当前的基准评估指标和批次校正方法未能充分捕捉细胞类型内部的生物学保守性。这一发现通过人类肺细胞图谱（HLCA）和人类胎儿肺细胞图谱的多层注释得到了验证。为弥补这一不足，作者们引入了一种基于相关性的损失函数，以更好地保留生物学信号，并通过纳入细胞类型内部的生物学保守性对现有的基准评估指标进行了改进。进一步通过整合单细胞数据的差异丰度分析验证了这一结果。该研究突出了深度学习方法在单细胞数据整合方面的潜力，精炼的框架和基准测试指标为整合过程提供了更深入的见解。这些进展有望推动深度学习方法的发展，以整合日益复杂的多模态和时空单细胞数据。

单细胞数据整合对于图谱级别的单细胞数据分析至关重要，深度学习方法的兴起拓宽了数据整合的应用，使人们能够更深入地理解各种生物学过程。Yi等人提出一个统一的基准测试框架，用于评估不同损失函数设计和信息正则化策略在数据整合任务中的表现（图 1A、B）。作者们还重新组织了现有的基准测试指标，并将其应用扩展到批次校正和细胞类型间及细胞类型内的生物学保守性（图 1C）。此外，使用多层细胞注释和发育单细胞图谱验证了扩展的单细胞整合基准测试（scIB-E）指标。此外，通过设计和验证一种专门用于保留细胞类型内生物学结构的创新损失函数，展示了该框架的实用性，并通过差异丰度测试得到了证实（图 1D）。

图1单细胞整合的多级损失正则化设计。A使用的统一变分自编码器框架。B实现的三个级联损失设计的示意图。C 单细胞数据整合后批次校正（顶部）、细胞类型间生物学保守性（中间）和细胞类型内生物学保守性（底部）的效果示意图。D Corr-MSE 损失设计的示意图（顶部）和生物学保守性单细胞整合的过程示意图（底部）

参考文献

[1] Yi C, Cheng J, Chen J, Liu W, Liu J, Li Y. Benchmarking deep learning methods for biologically conserved single-cell integration. Genome Biol. 2025;26(1):398. https://doi.org/10.1186/s13059-025-03869-z

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC