zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CellAnn:一个全面、超快、用户友好的单细胞注释web服务器

已有 1422 次阅读 2024-1-5 07:58 |个人分类:科普|系统分类:科普集锦

CellAnn:一个全面、超快、用户友好的单细胞注释web服务器 

单细胞RNA测序(scRNA-seq)是一种在单细胞水平检测基因表达水平的基因组方法。尽管它是在不到10年前发明的,但它已被广泛用于鉴定发育和疾病期间的新细胞类型和细胞异质性。在scRNA-seq数据分析中,通常的做法是首先根据每个细胞中基因表达谱的相似性对细胞进行聚类。下一步是细胞注释,将特定的细胞类型分配给集群。尽管细胞注释对于理解细胞的生物学特性至关重要,但它具有挑战性,因为它需要特定细胞或组织的领域知识。 

存在两种主要的细胞注释方法。一种方法利用已知的特定细胞类型的标记基因。 标记基因可以在CellMarkerPanglaoDB等在线数据库中找到。该类别中流行的方法包括ScTypescSorterCellAssignscCATCH。然而,由于对某些细胞类型的标记基因的了解有限,这种方法并不总是成功的。例如,一些研究较少的细胞类型很少或没有标记基因。此外,一些已知的标记基因可能并不像预期的那样特定于细胞类型。第二种单元格注释方法是基于参考数据集的。为此已经开发了几种方法,包括scclassificationScibetsingleCellNetscMAGICsingleR。这种方法利用领域专家仔细研究过的已发布的数据集。而不是明确地提取与每个集群相关的标记基因,细胞类型的特征是由许多可变基因定义的基因表达谱。通过比较查询簇和带注释的参考数据集的表达谱,如果查询簇和参考数据集的基因表达谱足够相似,则可以从参考数据集“借用”细胞类型。 

一个好的基于参考的细胞注释系统应该具有以下理想的特性。首先,我们需要大量的预处理过的参考数据集,这使得用户可以很容易地为他们的查询数据集找到相关的参考数据集。不幸的是,在用户执行分析之前,大多数可用的工具都依赖于用户识别、下载和处理参考数据集。其次,一个好的注释系统不应该需要复杂的计算技能来运行任务。然而,大多数基于参考的方法要求用户在他们的计算机上安装工具。一些工具仅在特定的计算语言(PythonR)中可用。第三,理想的方法即使使用大型参考或查询数据集也应该运行快速,并且不需要大量计算机内存。一些先进的方法,如采用深度学习方法的方法,已经被开发出来并具有良好的性能(scBERTscDeepSortACTINNsigGCNscIAEscNymSuperCTEnClaSC。然而,这些方法通常很慢,并且需要大量的内存和计算资源,因此不适合用于在线工具。此外,许多单细胞数据集是由基于液滴的平台生成的,这些平台通常包括数十万或更大规模的细胞。几种广泛使用的工具用于分析<10k个细胞的数据集所需的运行时间可能从几十秒到几天不等,特别是对于那些在单个细胞水平而不是在集群水平预测细胞类型的工具。 

最近,Lyu等人提出了一个新的细胞注释系统,CellAnn(图1)。该系统包括350多个经过预处理的参考数据集,包括人类和小鼠的主要组织类型。用户可以方便地搜索相关的参考数据集进行比较。此外,新设计的算法可以产生高精度和高速度的结果。CellAnn内算法将细胞类型分配给单细胞簇,因此,分析可以非常快地完成。通过评估算法性能,并表明它优于现有的方法。最后,所有的分析都是在一个用户友好的在线web服务器上完成的,该服务器可以在www.cellann.io上获得。 

image.png 

1 CellAnn工作流程示意图。CellAnn有四个主要步骤。(A)上传查询集群的基因表达谱,(B)CellAnn数据库中选择参考数据集,(C)根据选择的参考数据集预测细胞类型,(D)检查标记基因表达模式,协调多个预测的细胞类型标签,并下载最终结果 

参考文献

[1] Lyu P, Zhai Y, Li T, Qian J. CellAnn: a comprehensive, super-fast, and user-friendly single-cell annotation web server. Bioinformatics. 2023 Sep 2;39(9):btad521. doi: 10.1093/bioinformatics/btad521. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

 

image.png



https://blog.sciencenet.cn/blog-571917-1416706.html

上一篇:单细胞脑类器官筛选识别自闭症发育缺陷
下一篇:产前和产后人类皮质发育的单细胞分析
收藏 IP: 112.116.155.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 20:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部