博文

scMVAF：单细胞数据多视图自适应融合聚类方法

已有 199 次阅读 2026-6-28 22:03 |个人分类:科普|系统分类:科普集锦

scMVAF：单细胞数据多视图自适应融合聚类方法

生物体主要由细胞组成，这些细胞也负责确保生物体正常发育和运作。传统的 RNA 测序（Bulk RNA-seq）在组织水平上同时测序样本中的所有细胞。然而，它无法揭示细胞异质性。近年来，单细胞测序（scRNA-seq）的发展使我们能够在单细胞分辨率下分析数万个细胞。它是研究细胞异质性的重要工具，在研究复杂疾病、探索生物发育过程和辅助药物开发方面发挥着重要作用。早期，单细胞测序技术主要集中于低通量测序方法。随着下一代测序技术的成熟，高通量测序平台的出现大大增加了数据输出量。由于测序过程中每个细胞的转录覆盖范围有限，大量基因的表达值为零。此外，多聚酶链式反应扩增偏差和测序错误也会干扰对真实生物信号的检测。与批量 RNA 测序数据相比，单细胞 RNA 测序数据具有高噪声和稀疏性。这些特性影响下游分析，并使细胞分组变得极其困难。因此，开发一个能够应对这些挑战的聚类模型变得极其重要。

近年来，聚类分析在单细胞RNA测序（scRNA-seq）数据分析中受到了广泛关注。作为一种关键的分析工具，聚类旨在根据基因表达特征将细胞划分为不同的亚群，从而揭示细胞类型的多样性并识别新的细胞群体。这对于理解复杂的生物系统和疾病机制具有重要意义。为了对 scRNA-seq 数据进行聚类，已经提出了一些经典的聚类方法。例如，K-means 聚类是一种广泛使用的无监督机器学习算法。CIDR是一种典型的层次聚类方法，它在距离计算中结合了隐式归零法，以提供稳定的细胞间距离估计。SIMLR是一种结合了谱聚类和多重核相似性度量的聚类方法。Seurat是一种基于社区检测的流行方法，它通过选择变异较大的基因构建k近邻图，并最终使用社区检测算法进行聚类。虽然这些方法提供了不同的优势，但也存在一些缺点。例如，一些方法不适用于小样本数据，这些数据通常在单细胞测序中更稀疏和嘈杂，而这些方法无法很好地处理数据中的噪声，导致特征选择和聚类性能不佳。此外，这些方法中的一些具有高复杂度，无法扩展到大型数据集。

scRNA-seq 数据中存在与分析相关的因素。一个关键的技术挑战是数据中缺失值的发生。在一个基因表达矩阵中，零值可能由于技术原因导致基因未表达或未被检测，这种情况通常被称为假零值。这意味着由于捕获效率低或测序深度不足等因素，基因表达值未被观察到。深度学习模型因其能够减少单细胞数据中的技术因素影响而受到广泛关注。scGMAI是一种高斯混合模型，它首先使用自动编码器重建数据，然后进行降维，最后使用高斯混合模型进行聚类。DCA应用了两种不同的噪声模型与自动编码器结合，以推断分布参数，从而更好地表征 scRNA-seq 数据。scDeepCluster通过将原始数据空间投影到零膨胀负二项分布(ZINB)并结合 DCA 来同时学习特征表示和聚类，以显式建模方式推断缺失值。 Contrast-sc通过比较细胞之间的相似性来提取特征。scDCCA不仅学习样本的相似性，还通过使用双对比学习考虑数据本身的特征，从而获得细胞的成对相似性。

基于深度学习的聚类方法在捕捉复杂数据模式方面表现良好，但单一模型在处理数据多样性时存在局限性。为克服这一局限性，近期研究采用了集成学习方法，整合多个深度学习模型的结果，以全面挖掘数据。scDFC通过结合属性特征聚类模块和结构-注意力特征聚类模块，有效整合了 scRNA-seq 数据的属性和结构信息。SC3是一种基于集成的聚类方法，首先对遗传数据进行 PCA 和拉普拉斯变换以降低维度，计算细胞间的成对距离，并构建共识矩阵，随后将其作为层次聚类的输入。SAFE是另一种基于集成的聚类方法，整合了四种聚类算法（SC3、CIDR、Seurat 和 t-SNE+ K-means）的结果，并应用三种基于超图的分割算法融合各方法的聚类解，以生成最终的聚类结果。scMVFI一种多视角聚类方法，通过整合多个视角来揭示单一视角难以捕捉的潜在生物模式，有助于发现新的细胞类型。然而，它忽略了视角之间的冗余信息以及视角对聚类贡献的差异，这影响了聚类精度。

鉴于当前方法的限制，Wang等人提出了一种名为 scMVAF 的多视角聚类框架（图1，https://github.com/LQXLE/scMVAF/）。该方法首先通过多次下采样原始数据生成多个视角，然后使用基于 ZINB 的去噪自编码器学习每个视角的嵌入表示。该方案不仅可以减少数据稀疏性问题但也能更好地填补缺失信息，并通过多视角综合分析减少单视角数据噪声的影响。接下来，设计了一个多视角特征融合模块，该模块能够捕捉不同视角之间的差异，并动态地为每个视角分配权重。最后，融合视角用于生成一个统一的靶标分布，以指导自编码器的优化，从而挖掘具有更高判别信息的嵌入表示，以识别细胞类型。scMVFI模型在 16 个真实数据集上进行了比较，实验结果表明，所提出的模型 scMVAF 优于其他 8 个基线模型，并在细胞聚类方面表现出优异的性能。

图1 scMVAF 框架的示意图。(A) 整体框架。预处理后的 X 首先通过多次下采样生成 V 个视图，每个视图独立地输入基于 ZINB 的模型进行去噪投影，以获得单视图的嵌入特征，然后进行自适应加权融合。聚类算法在融合特征上得到均匀的目标分布 P，Q^(V) 是每个视图的软聚类分布。最后，使用均匀的目标分布 P 来指导私有软分布Q^(V)的视图进行聚类优化。(B) 自适应加权融合模块

参考文献

[1] Jinfeng Wang, Qixiong Long, Deyu Tang, Jin Deng, Yong Liang, scMVAF: a multi-view adaptive fusion clustering approach for single-cell RNA-sequencing data, Briefings in Bioinformatics, Volume 27, Issue 3, May 2026, bbaf169, https://doi.org/10.1093/bib/bbaf169

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC