zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

scUnified:单细胞数据分析的AI标准化资源

已有 1077 次阅读 2025-11-22 20:39 |个人分类:科普|系统分类:科普集锦

scUnified:单细胞数据分析的AI标准化资源 

随着单细胞 RNA 测序(scRNA-seq)技术的快速发展,现在可以在前所未有的分辨率下表征复杂细胞群体及其功能状态。尽管 scRNA-seq 数据本质上具有高维性、稀疏性,且易受大量技术噪声的影响,但它们捕获了丰富的生物信息,为研究细胞异质性和阐明疾病机制提供了坚实的基础。这些数据支持多种计算分析,包括细胞聚类、细胞类型注释、轨迹推断、基因调控网络重建等。 

近年来,针对 scRNA-seq 数据发展了多种计算策略,涵盖传统统计建模、机器学习、深度学习和基于生物先验知识的基础模型,以应对单细胞数据集中固有的复杂性和噪声。代表性方法包括基于图的聚类算法,如 Louvain Leiden,概率生成模型如scVI,深度聚类框架如 scCDCG,以及大规模基础模型包括 scGPT GeneCompass 

尽管取得了快速进展且方法多样,但这些计算模型在严格评估和比较方面面临重大障碍。具体而言,缺乏标准化的高质量数据集限制了可重复性,阻碍了公平的基准测试。目前有三个主要挑战。(i) 聚类数量设置不严谨:在单细胞聚类基准测试中,注释的细胞类型数量通常直接被用作聚类数量。这种做法并不总是具有生物学依据,并可能在性能评估中引入偏差。(ii) 数据标准不一致导致不公平评估:不同数据集在格式、预处理工作流程和注释质量方面存在显著差异。这些不一致不仅阻碍了跨研究的模型训练,也限制了在同一数据集上对多种方法进行公平且可重复比较的能力。(iii) 多任务数据集可用性有限:现有的单细胞数据集中很少有能同时支持多种下游生物学分析的数据集,例如聚类、细胞类型注释和标记基因鉴定。这一局限性限制了系统性基准测试的范围,并制约了人工智能驱动的单细胞研究的进步。 

为应对上述问题,Xu等人提出了scUnified(图1https://github.com/XPgogogo/scUnity-AI),一个适用于单细胞 RNA 测序分析的 AI 标准化资源。scUnified 整合了 13 个高质量的公开数据集,涵盖两个物种和九种组织类型,提供一致的质量控制、预处理和多级注释,以.h5ad 格式确保与广泛使用的单细胞分析框架兼容。通过提供分析就绪的数据,scUnified 消除了额外数据清理或格式转换的需求,提供了一个标准化且可靠的资源,有助于在不同模型和任务中可重复地评估计算方法。主要有三个贡献: 

image.png

1 scUnified 概述:跨物种和组织的标准化单细胞 RNA 测序数据集,支持 AI 驱动的生物研究和发现 

l  对高质量 scRNA-seq 数据集进行全面的收集和系统化整理,具有统一的质量控制和预处理。 

l  提供标准化的、分析就绪的数据格式,以支持广泛的生物任务,包括聚类、细胞类型注释、标记基因鉴定等。 

l  通过代表性的生物案例研究验证数据集的实用性,为单细胞研究中的方法开发、公平模型比较和 AI 驱动的发现建立可重复的基础。 

参考文献

[1] Xu P, Wang Z, Wang Z, et al. scUnified: An AI-Ready Standardized Resource for Single-Cell RNA Sequencing Analysis. arXiv preprint arXiv:2509.25884, 2025. https://doi.org/10.48550/arXiv.2509.25884 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1511317.html

上一篇:GraphComm:使用图深度学习方法预测细胞通讯
下一篇:DAZZLE:使用 dropout 增强改进基因调控网络推理
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 18:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部