zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CellCov:基因体覆盖分析

已有 144 次阅读 2026-2-24 10:56 |个人分类:科普|系统分类:科普集锦

CellCov:基因体覆盖分析 

单细胞 RNA 测序已广泛普及,并被广泛应用于生物医学研究。近期技术进步已将其应用范围从简单的 RNA 标记(3' 5'端)的基因级计数扩展到对转录本的全面覆盖。随着新方法不断涌现,全面的基准测试和适当的质量控制对确保结果的有效性变得越来越重要。 

全长 RNA 测序质量的一个关键方面是基因体覆盖,描述测序读段如何从基因的 5'端分布到 3'端。理想情况下,每个位置的排序概率相同,从而实现均匀覆盖分布,但实际作中往往并非如此。3'偏倚的常见原因包括酶促断片、逆转录不完全以及 mRNA 降解,结合多 A 捕获策略。相反,5'偏置可能由断裂结合 5′端计数或内部寡-dT 引发产生。因此基因体覆盖率不仅取决于所用方案,还反映了样本质量。研究表明,偏斜剖面能预测低质量细胞,并可用于过滤,凸显了该指标在单个细胞中的价值。 

然而,常用用于可视化覆盖一致性的工具,如 RSeQC QoRT,则是基于批量数据运行。虽然 SkewC旨在分析单细胞数据,但它通过将输入拆分为每个细胞的 BAM 文件,并对每个细胞分别运行类似 RSeQC 的算法实现这一目标,这在计算效率上较低,且与单细胞方法日益增长的可扩展性相悖。 

此外,现有工具无法比较不同性质(如 GC 含量、表达水平或转录本长度)的基因或转录本的覆盖分布。因此,目前对单细胞覆盖分布的详细研究尚不可行。为克服这些局限,Chen等人介绍了 CellCovhttps://github.com/ziegenhain-lab/CellCov),一款轻量级工具,能够报告特征(基因或转录本)和细胞分辨率的覆盖率。这种格式便于灵活的下游分析,便于在单细胞层面进行全面比较,同时便于不同特征属性间的分层。 

为说明 CellCov 的实用性,作者们计算了由多种 scRNA 测序方法生成的公开数据集覆盖率(Smart-seq3xpressMAS-seq10x Genomics 3' 基因表达 v3 R2C2),并用提供的绘图脚本探索输出。CellCov 输出一个覆盖矩阵,具有 100 百分位的箱,分辨率为单细胞特征,可以通过用户自定义的细胞和/或特征注释(如细胞类型、基因长度、GC 含量、表达)进行分层,并与稳健总结汇总以实现协议比较。例如,按外显子长度分组基因,并联合可视化了四个数据集,包括细胞间的变异性,显示出化学依赖的长度对覆盖谱的影响(见图 1a)。CellCov 还计算了一个细胞偏度指标,这是一种无方向的指标,衡量基因体中非均匀覆盖分布情况(见图 1b)。 

image.png

1 单细胞 RNA-seq 协议中的基因-体覆盖。(a)根据测序协议(SS3XR2RC-ONT10X MAS-Seq)按外显子长度(<2 kb2–3 kb3–5 kb >5 kb)分组的基因,显示了归一化的基因体覆盖率(100 百分位区间,5′ 3′)。实线表示中位覆盖分布;阴影带表示细胞间变异性为四分位数范围(第 25 至第 75 百分位)。(b)蜂窝覆盖偏斜被计算并以小提琴图形式显示 

参考文献

[1] Shiyao Chen, Urša Zevnik, Christoph Ziegenhain. CellCov: gene-body coverage profiling for single-cell RNA-seq. bioRxiv 2026.01.30.702727; doi: https://doi.org/10.64898/2026.01.30.702727 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1523191.html

上一篇:SCCVAE:变分因果推理学习遗传扰动效应
下一篇:cspray:分布式单细胞转录组分析
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-24 17:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部