||
scLEGA:一种倾向于单细胞数据低表达基因的基于注意力深度聚类方法
细胞的不同类型和功能导致了组织学上的异质性。scRNA-seq的主要优势在于,它允许在单细胞水平上研究细胞基因表达谱,从而能够更精确地测量基因表达水平,发现细胞异质性和动态变化,鉴定未知或罕见的细胞类型,阐明细胞发育轨迹和分化过程,以及探索疾病、药物和环境等条件下的细胞反应和调节机制。细胞类型的分类是下游研究的基础,包括分析不同细胞类型之间的相互作用以及分析与特定疾病的关联。对于许多下游分析,准确识别细胞亚群是至关重要的。
近年来,基于scRNA-seq数据的细胞类型推断研究已经出现了大量的聚类方法。例如,SC3采用多个距离度量和降维技术对单细胞RNA-seq数据(scRNA-seq)进行重复聚类,然后通过共识聚类算法整合各种聚类结果。SIMLR本质上是一种谱聚类方法,通过学习结合多个核函数的可靠距离度量来实现单细胞数据的有效聚类。Seurat4是一种用于单细胞数据分析的高级工具包,能够有效地处理包含数百万个细胞的超大型数据集。它通过降维、聚类和集成等方法快速构建多模态k近邻图。Seurat4还利用基于图的社区检测算法,如Louvain或Leiden,通过PCA、t-SNE或UMAP来识别细胞亚群,并可视化细胞分布和异质性。共享近邻(SNN)-cliq基于SNN的概念,构建反映细胞相似性的图,然后采用准流体模型识别密度高、连通性好的子图,作为细胞类型的候选集。
随着深度学习技术的不断进步,各种基于深度学习的聚类方法被开发出来,以解决基于scRNA-seq数据的细胞类型推断的挑战。这些方法以其出色的数据拟合能力而闻名,可以通过复杂的功能模型揭示数据中的隐藏信息。深度学习的端到端学习范式避免了对传统先验知识的依赖,能够直接从原始数据中自动提取有价值的特征。这种方法很好地符合scRNA-seq数据的特点——高维度和稀疏性——使深度学习成为揭示潜在生物机制的理想工具。scVI基于层次贝叶斯模型,具有由深度神经网络指定的条件分布,即使对于非常大的数据集也可以非常有效地训练。scDeepCluster通过将零膨胀负二项(ZINB)分布自编码器与DEC集成,实现了对scRNA-seq数据的高效处理。DCA扩展了典型的自编码器方法,将重构误差定义为噪声模型分布的似然,而不是对输入数据本身进行重构。DeepScena采用基于NB的自动编码器,通过拟合NB模型来完成数据输入,提高准确率。scCAN利用自编码器和网络融合技术,可以在高维、稀疏的scRNA-seq数据中准确区分不同的细胞类型。DESC使用自编码器学习数据的低维表示,然后使用深度嵌入聚类进行软分配,最终优化聚类中心和数据分配。scGNN将细胞-细胞关系图引入多个自编码器中,并结合图卷积网络(GCN)学习拓扑图的嵌入。scGPCL也是一种基于图的方法,利用原型对比学习,针对scRNA-seq数据中的细胞进行聚类,充分利用细胞间的关系信息。scGAC采用基于图注意网络的图自编码器(GAE),从细胞-细胞图中学习细胞的低维嵌入。scBGEDA是一种深度单细胞聚类模型,采用双去噪自动编码器(DAE)和二部图集成聚类。
目前基于scRNA-seq数据的细胞类型推断方法主要利用表达水平较高的高可变基因(high-variable genes, hvg)作为聚类的主要特征,忽略了表达水平相对较低的hvg贡献。这些低表达基因可能是细胞类型或状态的关键标记,或者是调控网络中的关键因素。因此,单纯依赖高表达基因可能会忽略某些细胞类型的独特性,从而影响分类的准确性和完整性。由于高表达基因提供细胞的基本功能和状态信息,而低表达基因捕获细胞之间的细微差异和特异性特征,因此有必要同时考虑高表达和低表达hvg。结合两种类型基因的信息可以提高聚类和分类的准确性,使模型能够更准确地识别和区分细胞类型。为了解决这个问题,Liu等人设计了一种基于scRNA-seq数据的新型细胞类型推断方法,称为scLEGA(图1,https://github.com/Masonze/scLEGA-main)。scLEGA引入了一种新的ZINB损失函数,该函数充分考虑了表达水平较低的hvg在细胞类型推断中的重要性,从而产生了更友好的聚类表示。此外,scLEGA采用多头注意机制,有机地整合了两种互补的聚类策略。一种策略是基于低表达优化DAE和ZINB模型,从高维数据中提取具有生物学意义的低维特征,处理scRNA-seq数据中常见的dropout事件,并结合新的ZINB损失,充分考虑低表达基因对细胞类型推断的贡献。另一种策略是基于GCN的GAE方法,利用细胞间的相似度信息构建图结构,并通过邻居信息引导降维过程,从而保持数据的拓扑结构。scLEGA通过基于去噪和拓扑嵌入的迭代融合,生成更紧凑、鲁棒的细胞表示,更容易被聚类算法识别。此外,scLEGA利用Leiden算法确定初始聚类中心,并根据其在隐藏空间中的位置自适应标记细胞,而无需事先知道组的数量。许多传统的聚类方法,如k-means,需要预定数量的聚类,这可能导致在缺乏先验知识的情况下结果不准确。与Louvain算法等其他社区检测算法相比,Leiden算法可以产生更高质量的社区分区,避免了社区分裂和断开的问题。为了评估scLEGA的性能,作者们将其与12种最先进的基线方法在15个数据集上进行了比较,证明了scLEGA在分析scRNA-seq数据方面的优势。与几种需要预先确定组数的基于k均值的方法相比,scLEGA也取得了更好的结果。实验还证明了scLEGA的鲁棒性和稳定性,表明该框架具有较强的泛化能力和较高的容错能力。
图1 scLEGA框架。scLEGA通过改变ZINB损失的实现,能够关注低表达水平基因对细胞类型推断的贡献。将该损失函数集成到DAE中学习去噪嵌入。随后,采用多头注意力将DAE产生的去噪嵌入与GAE产生的拓扑嵌入相结合,实现深度聚类
参考文献
[1] Liu Z, Liang Y, Wang G, Zhang T. scLEGA: an attention-based deep clustering method with a tendency for low expression of genes on single-cell RNA-seq data. Brief Bioinform. 2024;25(5):bbae371. doi: 10.1093/bib/bbae371.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社