||
COMSE:基于模块特征选择分析单细胞测序数据
高通量单细胞RNA测序(scRNA-seq)已经能够阐明每个细胞的转录组谱。scRNA-seq数据统计和机器学习分析为阐明诸如细胞命运决定和复杂疾病的发生和进展等现象背后的生物过程提供了前所未有的机会。然而,分析scRNA-seq数据面临三个主要挑战:(a)典型的scRNA-seq实验仅在几千个细胞中检测到约20,000个基因。具有大量特征但样本量相对较小的数据集对于传统的统计和机器学习方法来说是有问题的。(b)目前的scRNA-seq方案仅捕获细胞内10-40%的mRNA。因此,低表达基因可能在计数矩阵中被记录为零,并且高缺失率给scRNA-seq数据带来了相当大的噪声和稀疏性。(c)大部分功能通路和生物学过程只涉及基因的子集。一个重要的计算挑战是选择最相关的特征。在大多数情况下,scRNA-seq数据无法获得细胞类型的真实标签。因此,无监督特征选择对于降维和数据去噪都是必要的。即使对于基于大量细胞的液滴数据集,由于极度稀疏性和噪声,基因选择仍然具有挑战性。在样本量增加的同时,缺失率也在上升,而且大多数基因仅在一小部分细胞中被检测到。因此,需要敏感的、可扩展的方法来区分感兴趣的信号。
在scRNA-seq数据分析中,基因选择通常采用几种计算方法,包括Seurat、M3Drop、scran、BASiCS和scLVM。这些方法有两个主要组成部分:数据标准化和分析变化。标准化通常通过方差稳定转换(如DESeq2)或将原始计数转换为相对表达水平来实现。这些方法对高可变基因(HVG)采用了不同的处理方法。例如,scLVM的LogVar算法和scran从对数归一化表达矩阵计算方差。BASiCS使用层次贝叶斯模型,而Brennecke使用方差的平方系数来估计基因表达的离散度。每种方法都将均方差关系拟合到各自的模型中,并选择HVG。识别HVG的目的是保留表现出生物学异质性的基因,同时去除产生技术噪声的基因,从而增强生物学相关信号、降低维数、提高聚类等下游分析的计算效率。然而,HVG通常是相关的或冗余的,特别是在异质人群中。冗余会导致过拟合、方差膨胀、效率低和性能差。此外,并非所有生物相关基因都是高度可变的,因此仅基于均方差关系的选择会导致信息丢失。
特征选择的目的是在分类、轨迹分析或其他下游分析等任务中,为构建模型识别信息最丰富、最相关的特征。它还有助于模型的可解释性和泛化性。通过专注于无监督特征选择(UFS)方法,因为在scRNA-seq数据中通常缺乏真正的细胞类型标记。Luo等人提出了一种新的无监督特征选择(UFS)方法,称为COMSE(https://github.com/Lan-lab/COMSE)。COMSE方法首先利用Louvain算法通过主成分分析(principal component analysis, PCA)推断出潜在空间,将所有基因划分为不同的模块群。在每个模块中,COMSE应用去噪程序来去除在排序或其他程序中引入的噪声。然后根据Laplacian评分从每个聚类中选择高信息量基因(HIG) (图1)。Louvain算法是一种分层聚类方法,通过优化模块化来检测模块结构。Laplacian评分是一种基于谱图分析的特征选择方法,利用相似矩阵对特征进行局部邻域连通性和全局独特性排序。
图1 从单细胞RNA-seq数据中选择信息基因的COMSE方法概述。A每个细胞的对数归一化基因表达谱使用主成分分析(PCA)投射到低维潜在空间。然后使用低维表示与k近邻(KNN)算法构建基因相似图。利用Louvain算法将基因图划分为若干子图进行模块检测。当样本协变量缺乏时,在给定邻居数的低维PCA空间中,通过KNN估计每个细胞的协变量矩阵。然后采用线性混合回归模型对每个基因子图内的数据进行估计和去噪。C采用基于Laplacian分数的无监督特征选择技术来选择每个子图中的高信息量的基因
为了评估COMSE方法的性能,作者们将其应用于实际和模拟的scRNA-seq数据。他们发现,在没有任何额外信息的情况下,COMSE在检测同质细胞之间的细微差异方面更敏感,这有助于更复杂地理解细胞亚群固有的功能。此外,COMSE比其他常用工具提供了更精确和简洁的细胞聚类。作者们还证明,通过COMSE方法鉴定的模块在广泛和基因特异性水平上提供了对基因功能的深入了解。模块群结构还能够分离与批效应相关的亚群,使我们能够去除此类效应。因此, COMSE可以帮助解释生物或技术来源引起的变异。作者们还将COMSE中的去噪步骤应用于大量RNA-seq数据,结果表明,去噪后的数据对差异表达基因的识别更加稳健,能更好地反映组间的生物学差异。
综上所述,COMSE提供了一个有效的基于模块检测的无监督特征选择框架,能够从scRNA-seq数据中识别出高信息量基因。COMSE在检测同质细胞群中的子状态方面表现出更高的灵敏度,并且在细胞聚类的准确性和鲁棒性方面优于现有方法。此外,作者们发现COMSE鉴定的不同基因亚群具有生物和技术异质性,可以用于批效应去除和通路分析等其他应用。值得注意的是,COMSE的应用可以扩展到bulk RNA-seq数据分析,产生更稳健的结果。
参考文献
[1] Luo Q, Chen Y, Lan X. COMSE: analysis of single-cell RNA-seq data using community detection-based feature selection. BMC Biol. 2024;22(1):167.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 20:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社