zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

starTracer:单细胞转录组数据的精准标记基因识别

已有 959 次阅读 2024-10-21 20:36 |个人分类:科普|系统分类:科普集锦

starTracer:单细胞转录组数据的精准标记基因识别

单细胞/细胞核RNA测序(sc/snRNA-seq)揭示了细胞类型的异质性,通过各种方法可以识别出不同的簇。集群的注释需要标记基因作为标识符,这些标记基因表现出高特异性的表达模式来区分集群。这有利于单细胞测序数据与后续实验的整合。

随着sc/snRNA-seq技术在越来越多的研究中的应用,减少计算资源和时间是一个可持续的问题。同时,随着单细胞测序研究中产生的细胞数量的增加,对计算资源和时间成本的要求也随之增加。因此,数据分析变得越来越低效,对有效管理单细胞测序工作流程的灵活性、可扩展性和效率提出了挑战。

Seurat被广泛认为是单细胞数据分析最强大的工具之一。在此过程中,大多数情况下都需要使用“FindAllMarkers”函数。标记基因鉴定的基本算法,包括其他工具包,如ScanpyMonocle,是基于一个特定集群的标记基因与其他集群相比表现出显著上调的原则。然而,该算法会导致“稀释”问题,即当高表达聚类与大多数聚类中的低表达聚类合并时,从而降低了准确性。因为,理想的标记基因应该是单个聚类所独有的。此外,计算每个聚类的基因会导致冗余计算,产生多余的信息,消耗大量的计算资源,这在效率上造成了瓶颈。特别是在处理涉及较大种群和复杂注释的实验时,因此需要进一步改进。此外,识别低细胞计数群集的标记基因也具有挑战性。

实际上,考虑到平均表达值和标准差可以视为一种解决方案。对多组进行显著性检验或事后方差分析也可以提供额外的信息,以避免“稀释”问题,然而,这些方法都需要额外的计算资源。为了解决这一问题,标记基因搜索策略应避免将剩余的聚类聚集为一个实体,并考虑每个聚类之间的表达值,而不是进行显著性检验,以保持高效率和准确性。最近,Zhang等人开发了RstarTracer(图1https://github.com/JerryZhang-1222/starTracer),可以准确地找到高特异性和高效率的标记基因。该软件包专门设计用于与广泛使用的单细胞分析工具Seurat无缝集成,并为单细胞数据中的标记基因提供有价值的见解。

image.png

1 starTracer示意图。A单细胞测序表达矩阵和注释矩阵的结构。B starTracer提供了2个选项:“searchMarker”“filterMarker”“searchMarker”需要来自单个细胞实验或Seurat对象的细胞注释矩阵和表达矩阵/平均表达矩阵。“searchMarker”对平均表达矩阵进行最大归一化,计算通过用户设置阈值的每个基因的分子指数,并输出带有标记基因的矩阵。C “filterMarker”“FindAllMarkers”函数中获取输出矩阵,将基因分配到集群中,并通过测量每个基因的Ti来重新排列它们。“searchMarker”的运行时间比“FindAllMarkers”“filterMarker”短得多

starTracer为用户提供了多种灵活的参数:用户可以直接输入稀疏的单细胞表达矩阵、Seurat对象,也可以使用“searchMarker”功能输入每种细胞类型的平均表达矩阵。在Seurat中,一个基因可以被认为是多个集群中的一个标记。然而,starTracer为研究人员提供了一个标记基因列表,其中每个基因都与一个簇相关,基于研究人员为每个簇指定的标记基因数量。starTracer还提供了在高变异基因中特异性选择标记基因的选项,从而减少来自低变异基因的干扰。此外,可以设置一个参数作为阈值,限制标记基因的最低表达水平,以识别不同表达水平和特异性水平的标记基因。

此外,对于已经拥有Seurat输出标记基因矩阵的用户,starTracer提供了另一个模块“filterMarker”,该模块允许根据标记基因的特异性水平重新排列和重新分配标记基因,以优化从Seurat获得的结果。总的来说,starTracer是一个开源的R软件包,用户可以随时使用它来有效地识别单细胞测序数据中的潜在标记基因。

参考文献

[1] Zhang F, Huang K, Chen R, Liu Z, Zhao Q, Hou S, Ma W, Li Y, Peng Y, Chen J, Wang DO, Wei W, Li X. starTracer is an accelerated approach for precise marker gene identification in single-cell RNA-Seq analysis. Commun Biol. 2024 Sep 13;7(1):1128. doi: 10.1038/s42003-024-06790-6.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 



https://blog.sciencenet.cn/blog-571917-1456290.html

上一篇:pathlinkR:转录组数据的通路和网络分析
下一篇:LIANA+:细胞通讯推断一体化框架
收藏 IP: 202.203.17.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-3 13:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部