zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

第二代转录组数据细胞类型反卷积方法基准测试

已有 1191 次阅读 2024-7-3 21:55 |个人分类:科普|系统分类:科普集锦

第二代转录组数据细胞类型反卷积方法基准测试

组织和器官由不同类型的细胞组成,这决定了它们的结构和功能。表征组织的细胞组成对研究细胞发育、体内平衡和疾病至关重要。近年来,已经开发了几种计算机反卷积方法来估计组织样品的细胞组成,这些组织样品通过大量RNA测序(RNA-seq)进行分析。反卷积算法将异质样本的基因表达谱作为混合细胞基因表达谱的加权和,并利用细胞类型特异性转录组特征估计未知细胞部分。虽然单细胞RNA-seq (scRNA-seq)能够以前所未有的分辨率和粒度研究细胞身份的转录组,但它不适合准确量化组织的细胞组成。这主要是由于单细胞分离效率的差异,这可能会影响细胞类型的比例。此外,单细胞协议需要相当大的成本和技术挑战,使得它们的应用对分析大型样本集合没有吸引力。因此,bulk转录组分析仍然很受欢迎,推动了对计算机细胞类型反卷积的进一步研究。

早期的反卷积工具是基于覆盖几种细胞类型的预计算标签。过去,研究的重点主要集中在人类抗癌免疫上,这些方法已经得到了广泛的验证。对更灵活的方法的需求和单细胞组学的快速发展推动了第二代反卷积工具的发展,这些工具可以直接从注释的(即细胞类型标记的)scRNA-seq数据中学习细胞类型特异性特征,即表达特征或模型。原则上,这些方法允许在任意组织和生物体中对任何类型的细胞进行反卷积,只要有参考单细胞数据可用。由于第二代方法根据用户指定的数据动态推导反卷积特征,因此表征其在不同环境下的准确性和鲁棒性需要系统和全面的基准测试,这与以往侧重于第一代方法的研究不同。虽然一些第二代算法已经进行了测试,但反卷积基准测试的主要挑战仍然没有得到解决。其中包括评估方法量化稀有或密切相关细胞类型的能力,以及确定生物和技术偏差对反卷积性能的影响。

最近,Dietrich等人对第二代反卷积工具进行了全面的基准测试研究,利用一组平衡且合理设计的模拟和实验真值数据,同时确保再现性和可重用性。为了解决和系统地评估各种生物和技术混杂因素对方法性能的影响,他们使用了模拟器SimBu,它允许有效地生成合成的bulk RNA-seq数据集,即通过控制单细胞表达谱聚集产生的bulk”SimBu允许对细胞类型特异性mRNA水平进行建模,这是反卷积方法必须考虑的一个重要偏差,在以前的基准研究中被忽视了。用来自不同组织和生物体的真实RNA-seq样本来补充伪批量数据集,这些样本具有匹配的真实细胞分数。总体而言,作者们组装了超过1,400个真实和模拟RNA-seq样本的纲要,并匹配了真实细胞分数,以系统地测试方法在不同情况下的性能。他们的研究强调了最先进的工具的优势、局限性和互补性,揭示了不同的数据特征和混杂因素如何影响反卷积性能。作者们提供了一个工具和资源的生态系统,omnideconvhttps://github.com/omnideconv/omnideconv/,图1),简化了反卷积方法的应用、基准测试和优化。

 image.png

1 omnideconv基准测试生态系统提供了五种工具(从左到右):Romnideconv提供了反卷积方法的统一接口,伪bulk模拟方法SimBu, deconvData数据存储库,Nextflow中的deconvBench基准测试管道和web应用程序deconvExplorer(B)基准实验概述:几种方法使用scRNA-seqbulk RNA-seq数据作为输入,并计算每个bulk样本的估计细胞类型分数的统一输出。将估计分数与真值分数(从伪bulkFACS/IHC实验中已知)进行比较,并计算每种方法和细胞类型的性能度量。(C)在本基准中解决了细胞类型反卷积中的几个挑战:(1)细胞类型显示总mRNA偏倚;(2) scRNA-seq数据集因技术、组织和疾病而异;(3)一部分细胞可能是未知类型的,因为scRNA-seq参比不一定包含大量混合物中存在的所有细胞类型;(4)一些细胞类型在转录组水平上更加相似,导致类似细胞类型的溢出(D)评估了两个主要参数,这两个参数通常可以被反卷积方法的用户所采用,并影响估计质量:(1)scRNA-seq参考数据集中每种注释细胞类型的细胞数量;(2)注释精度水平

参考文献

[1] Alexander Dietrich, Lorenzo Merotto, Konstantin Pelz, Bernhard Eder, Constantin Zackl, Katharina Reinisch, Frank Edenhofer, Federico Marini, Gregor Sturm, Markus List, Francesca Finotello. Benchmarking second-generation methods for cell-type deconvolution of transcriptomic data. bioRxiv. 2024.06.10.598226; doi: https://doi.org/10.1101/2024.06.10.598226

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1440829.html

上一篇:什么是长新冠肺炎?
下一篇:M&M:基于RNA-seq数据的儿童肿瘤泛癌分类器
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 17:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部