||
PC-index:单细胞数据综合指标
基因表达谱通常用于定义细胞身份,推断调控和代谢程序,并比较不同组织、条件和个体间的表型。几十年来,大多数转录组分析依赖于整体测量,这提供了平均表达的稳定估计,但本质上掩盖了复杂组织内部的细胞异质性。
单细胞和单核RNA测序将基因表达分析扩展到细胞分辨率,能够系统地描述群体内的细胞类型、细胞状态和基因表达可变性。随着这些数据集规模的增长,并越来越多地整合到图谱和疾病研究中,当在定义的细胞群体中评估数万个基因的基因表达模式时,需要既稳健又可解释的汇总指标。
在常规单细胞分析中,细胞群体内的基因表达通常使用两个互补的量来总结。首先,平均表达(通常报告为每10,000个总转录本的计数,CP10K)捕捉表达的幅度。其次,细胞普遍性(检测到基因的细胞百分比)捕捉基因表达的广泛程度。虽然这些信息是有益的,但单独考虑每个量时都有局限性。平均表达可能因少数高表达细胞而不成比例地受到影响,从而掩盖表达是否广泛分布。相反,普遍性无法区分弱表达与强表达,并且可能对在少数细胞中强表达而在更多细胞中低水平广泛检测的基因赋予相似的权重。此外,使用两个单独的数字来解释和比较基因表达,会使全基因组排序、标记选择和跨数据集比较变得复杂。
最近,有研究者介绍了PC指数,这是一个单一、直观的汇总统计量,它将表达幅度和细胞普遍性联合捕获在一个可解释的值中。PC指数根据每个细胞的表达排名分布定义,只有当表达足够强烈并且在细胞群体中足够普遍时才会增加。以GTEx单核RNA测序的人脂肪细胞为例,展示了PC指数为基因表达行为提供了一个紧凑且易于解释的表示,补充了常用的平均表达和细胞普遍性度量。
PC指数定义
令 C10 = CP10K × 10,这是一种简单的缩放,将表达量大小和百分比置于可比的数值尺度上。对于每个基因,细胞按 C10 的降序排列。PC 指数定义为最大的值 X,使得至少 X% 的细胞满足 C10 ≥ X。
PC=max{X: P(C10≥ X) ≥ X%}
在这里,P(C10 ≥ X) 表示表达量至少为 X 的细胞的比例。因此,PC = X 表示至少有 X% 的细胞在表达水平上为 X 或更高表达该基因。
PC指数计算
在进行PC指数计算时,CP10K值被重新缩放为C10 = CP10K × 10,并且每个基因的细胞按C10的降序排列。用N表示分析群体中细胞的总数。对于给定的表达阈值X,计算满足C10≥X的细胞比例k/N,其中k是符合该标准的细胞数量。操作上,这是通过遍历排序后的细胞并确定至少有X%的细胞表现出C10≥X的表达水平时的最大X来确定的。在分析群体中所有细胞中表达均为零的基因被分配PC指数为零。
PC指数值取决于数据质量、归一化策略和测序深度,极稀疏的数据集可能会产生均匀较低值。此外,通过将表达幅度和细胞普遍性合并为一个汇总统计量,PC指数必然会导致信息损失,并且无法捕捉细胞间表达值的完整分布。因此,具有不同潜在表达模式的基因可能会共享相似的PC指数值。此外,PC指数概括了定义细胞群体内的表达,并且无法捕捉时间动态、调控相互作用或细胞间通讯。在解释特定生物学背景下的PC指数值时,应考虑这些局限性。
展望未来,PC指数可能有助于在单细胞研究中优先排序基因,包括识别细胞类型标记、比较不同组织或条件下的基因表达程序,以及与下游分析框架整合。PC指数独立于细胞类型、组织或物种定义,并且可以应用于任何具有细胞水平表达分布的单细胞或单核转录组数据集。未来的工作可能会探索将PC指数扩展到替代归一化方案,以及它在不同多种细胞类型和数据集,以及其整合到差异表达或图谱规模分析中。
总之,PC-index为单细胞转录组数据中的基因表达总结提供了一种实用、直观且可解释的方法。通过将表达幅度和细胞普遍性整合为一个单一的数字,它为现有的指标提供了有用的补充,并促进了基因表达异质性的更清晰和高效的分析。
参考文献
[1] Ren Zhang. PC-index, a composite metric for gene expression in single-cell RNA-seq bioRxiv 2026.01.21.700965; doi: https://doi.org/10.64898/2026.01.21.700965
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-11 20:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社