||
scPAS:单细胞表型关联的亚群识别
单细胞RNA测序(scRNA-seq)能够全面表征复杂组织中的细胞特征,已成为生物学研究的重要方法。与常规RNA-seq不同,scRNA-seq允许对异质组织生态系统中的细胞类型、状态和谱系进行详细探究。识别与特定表型相关的关键细胞亚群已成为疾病研究中不可或缺的一部分,特别是随着单细胞技术的进步。尽管在开发用于scRNA-seq分析不同阶段的计算方法方面取得了重大进展,但在准确识别表型和细胞群体之间的分子关系方面仍然存在瓶颈。由于与单细胞测序相关的高成本和劳动力,具有足够表型信息的大规模队列数据很少。因此,小规模数据集具有有限统计能力,使得在细胞亚群和感兴趣表型之间建立统计显著关系具有挑战性。
幸运的是,从诸如癌症基因组图谱(TCGA)和国际癌症基因组联盟等可公开访问的数据库中,可以获得大量具有丰富临床信息的bulk测序数据。作为替代方案,许多研究人员利用来自患者的bulk RNA-seq数据,通过采用反卷积或特征基因评分方法,将scRNA-seq衍生的细胞亚群与临床表型联系起来。然而,这些方法评估疾病表型与给定细胞簇的关联,而不是与单个细胞的关联。这种对聚类结果的依赖忽略了细胞簇内的转录变化。
最近,诸如Scissor、scAB和DEGAS等计算方法通过整合bulk RNA-seq数据,系统地鉴定了与特定表型高度相关的细胞亚群。与传统方法不同,这些方法通过特定的关联将bulk RNA-seq和scRNA-seq数据结合起来,并构建计算模型来直接识别表型相关的细胞亚群。Scissor和scAB在全转录组水平上使用Pearson相关性来量化细胞和bulk样本之间的相似性。他们使用细胞与样本的相关系数作为训练特征,分别使用稀疏回归模型和知识与图形指导的矩阵分解模型建立了表型和细胞之间的关联。另一方面,DEGAS结合深度学习和迁移学习,将表型信息从患者转移到细胞。虽然这些方法在某种程度上是开创性的,但它们也有一些局限性:(1)全转录组水平的相似性矩阵可能忽略了少数关键基因的表达变化;(ii)高时空复杂性限制了这些方法在大规模数据集上的使用;(iii)它们不能对scRNA-seq数据中每个细胞与表型之间的关联强度提供定量和定性估计。
最近,Xie等人引入了一种名为scPAS(单细胞表型相关亚群标识符,Single-Cell Phenotype-Associated Subpopulation identifier,图1)的新工具,旨在定量估计scRNA-seq数据中每个细胞与给定表型之间的关联强度。这是通过构建一个网络正则化稀疏回归模型来实现的,该模型集成了bulk RNA-seq数据、表型信息和源自单细胞数据的基因-基因相似性网络。此外,scPAS可以评估这些关联的统计显著性,并在此评估的基础上提供定性分类。通过将scPAS应用于仿真数据和来自乳腺癌、卵巢癌和动脉粥样硬化的各种单细胞数据集,以及来自多种癌症的空间转录组学数据,作者们证明了其准确性、灵活性和广泛的适用性。在大型单细胞数据集上的应用表明,scPAS具有良好的效率。结合空间转录组学的应用实例有效地证明了scPAS模型的可移植性,说明scPAS可以无缝地应用于疾病研究中整合bulk、scRNA-seq和空间转录组数据。其研究结果表明,scPAS是探索和分析单细胞数据和阐明疾病机制的有效工具。scPAS代码可以在GitHub网站上获得:https://github.com/aiminXie/scPAS。
图1 scPAS概述。(A) scPAS的输入是scRNA-seq数据、bulk表达数据和与bulk表达数据相对应的表型标签。(B)bulk和单细胞数据准备以及基于单细胞数据的基因-基因相似性网络构建。(C) scPAS通过整合来自单细胞数据的bulk表达谱和基因相似网络,优化了图正则化稀疏线性回归模型。该模型由三部分组成:似然函数、正则化稀疏度惩罚和网络惩罚。(D)基于优化模型,scPAS计算每个细胞的风险评分,量化其与表型的潜在关联。(E) scPAS采用排列测试程序对定性细胞进行分类。(F) scPAS鉴定的细胞亚群用于下游分析
参考文献
[1] Xie A, Wang H, Zhao J, Wang Z, Xu J, Xu Y. scPAS: single-cell phenotype-associated subpopulation identifier. Brief Bioinform. 2024 Nov 22;26(1):bbae655. doi: 10.1093/bib/bbae655.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 02:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社