||
scPSS:量化单细胞转录组数据中的病理进展
测量健康与疾病状态之间细胞状态转变的能力,对于理解疾病机制和进展至关重要。单细胞数据集和大规模参考图谱的日益普及能够比较不同条件下的细胞状态。然而,现有工具缺乏识别与参考状态显著变化的细胞群体的能力——这是准确疾病特征分析的关键方面。
基于降维的现有方法和机器学习可以有效地将细胞分类为已知状态,但无法量化与参考状态的偏移程度。使用主成分(PC)基因表达嵌入的线性模型在单细胞分析中很受欢迎,利用 PC 空间中的距离将细胞聚类到多个组,并测量这些组之间的差异。此外,对比法和对比学习方法已被开发出来,旨在通过目标降维来识别更具信息量的细胞群特征。而这些方法则提升了疾病特异性特征的识别能力它们无法定量评估状态变化,也无法衡量疾病相关变化的程度。近期的弱监督机器学习方法使得对疾病相关的细胞状态识别和评分成为可能。其中,scIDIST在弱监督下整合了基于自编码器的降维,产生概率性疾病标记。这些标签随后用于训练神经网络,为单个细胞分配连续的疾病进展评分。虽然这些方法可以在单细胞层面赋予病理评分,但它们需要来自健康和患病个体的标记训练数据,因此其适用范围有限,适用于经过充分表征的疾病。
为了满足对细胞状态偏差与健康参考显著性计算方法的需求,Khan等人引入了单细胞病理移位评分(scPSS,图1,https://github.com/SaminRK/scPSS-reproducibility)。scPSS 利用正常细胞的基因表达谱来建立参考状态分布,利用主成分嵌入空间中的 k 最近邻距离。对于任何查询单元,它都会计算一个“病理性移位评分”,以衡量其偏离健康状态分布的程度。该评分既可根据状态偏差程度对细胞进行排名,也能识别疾病进展情况。scPSS 的关键区别在于其半监督式参考设计——仅使用健康的参考分布量化病理变化,无需对条件标记数据进行训练。由于 scPSS 不需要注释的疾病数据集,因此它在罕见新兴疾病和病例中具有独特适用性。此外,它采用了低参数但稳健的统计框架,直观地衡量细胞状态的变化,符合奥卡姆剃刀原则。本研究介绍了 scPSS,并评估其在多种数据集中的表现,强调其在无需疾病标记数据的情况下对病理变化进行排名的有效性。

图1 scPSS 概述。(A)首先,查询(Q1,Q2)和参考数据集(R1,R2,R3)被串接在一起,然后进行主成分分析。然后通过 Harmony 方法对连接的数据集进行积分。通过调整主成分(PC)值,消除了批量对数据集的特殊影响。(B) 以细胞到 PC 空间中最近的 k 个参考细胞的欧几里得距离作为其病态移位分数。参考细胞与相邻参考细胞的距离被视为零分布。可以确定属于参考零分布的每个查询细胞距离的 P 值,以获得病理进展的显著性度量。P 值低于指定阈值的细胞被视为显著病理
参考文献
[1] Khan SR, Rahman MS, Rahman MS, Samee MAH. Quantifying pathological progression from single-cell transcriptomic data with scPSS. Genome Res. 2026 Jan 14. doi: https://www.genome.org/cgi/doi/10.1101/gr.280411.125.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-4 14:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社