||
UCell 和 pyUCell:单细胞基因特征评分
单细胞技术通过在单个细胞分辨率下分析基因表达,极大地提升了我们表征细胞异质性的能力。单细胞分析中的一个核心计算任务是量化单个细胞内预定义基因集(或称“模块”)的活性——这种方法通常被称为基因特征评分或模块评分。基因集可以源自多种来源,包括经过整理的通路数据库如 MSigDB、Reactome 或 KEGG;描述特定细胞类型或激活状态的文献定义标记面板;以及数据驱动方法,其中模块通过共表达网络、差异表达分析或潜在因子建模推断得出。在单细胞研究中,此类基因集通常用于注释细胞簇、识别激活程序,以及量化单细胞水平的通路活性。
为了为单细胞基因特征评分提供一种稳健且可扩展的解决方案,Andreatta 和Carmona率先引入了基于 Mann–Whitney U 统计量的 UCell 方法。UCell 的基于排序的评分框架确保了其对数据集大小和异质性的稳健性在内存和运行时都实现高效计算。自推出以来,UCell 已成为单细胞研究领域广泛采用的工具,用于可重复且计算高效地量化基因特征活性。对于其他最先进的基因特征评分工具,读者可以参考最近的综述和基准测试。最近,Andreatta 和Carmona提出了 UCell 2.0(图1,https://bioconductor.org/packages/UCell/)的算法更新和扩展,包括支持正负基因集、改进缺失基因的处理,以及使用基因表达空间中的最近邻关系平滑特征分数的选项。作者们讨论了该方法的关键参数,并介绍了 pyUCell(https://pypi.org/project/pyucell/),这是一个为无缝集成到常见的单细胞分析生态系统(如 Scanpy和 scverse)而设计的原生 Python 实现。

图1 使用 UCell 进行特征评分。A) 基因特征(包括正向和负向基因集)在一个或多个单细胞数据集中对每个细胞进行评估;接受多种输入格式。B) 基因特征可以在低维空间中可视化,并在数据的不同分组中进行量化,例如无监督细胞聚类。C) 代表性特征(S1)在三个无监督聚类(c0, c1, c2)中单细胞水平(左)或按样本聚合(右)的 UCell 评分分布。D) 代表性特征(S1)在三个无监督聚类(c0, c1, c2)和两个实验条件(Cond1, Cond2)中单细胞水平(左)或按样本聚合(右)的 UCell 评分分布。E) 代表性特征(S2)的 kNN 平滑,示例说明去除异常值和减少 UCell 评分分布中的零值。小提琴图上方的数值表示每个分布中非零评分的百分比
参考文献
[1] Andreatta M, Carmona SJ. UCell and pyUCell: single-cell gene signature scoring for R and python. Bioinformatics. 2026 Feb 10:btag055. doi: https://doi.org/10.1093/bioinformatics/btag055.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-4 21:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社