||
第二代转录组数据细胞类型反卷积方法基准测试
组织和器官由不同类型的细胞组成,这决定了它们的结构和功能。表征组织的细胞组成对研究细胞发育、体内平衡和疾病至关重要。近年来,已经开发了几种计算机反卷积方法来估计组织样品的细胞组成,这些组织样品通过大量RNA测序(RNA-seq)进行分析。反卷积算法将异质样本的基因表达谱作为混合细胞基因表达谱的加权和,并利用细胞类型特异性转录组特征估计未知细胞部分。虽然单细胞RNA-seq (scRNA-seq)能够以前所未有的分辨率和粒度研究细胞身份的转录组,但它不适合准确量化组织的细胞组成。这主要是由于单细胞分离效率的差异,这可能会影响细胞类型的比例。此外,单细胞协议需要相当大的成本和技术挑战,使得它们的应用对分析大型样本集合没有吸引力。因此,bulk转录组分析仍然很受欢迎,推动了对计算机细胞类型反卷积的进一步研究。
早期的反卷积工具是基于覆盖几种细胞类型的预计算标签。过去,研究的重点主要集中在人类抗癌免疫上,这些方法已经得到了广泛的验证。对更灵活的方法的需求和单细胞组学的快速发展推动了第二代反卷积工具的发展,这些工具可以直接从注释的(即细胞类型标记的)scRNA-seq数据中学习细胞类型特异性特征,即表达特征或模型。原则上,这些方法允许在任意组织和生物体中对任何类型的细胞进行反卷积,只要有参考单细胞数据可用。由于第二代方法根据用户指定的数据“动态”推导反卷积特征,因此表征其在不同环境下的准确性和鲁棒性需要系统和全面的基准测试,这与以往侧重于第一代方法的研究不同。虽然一些第二代算法已经进行了测试,但反卷积基准测试的主要挑战仍然没有得到解决。其中包括评估方法量化稀有或密切相关细胞类型的能力,以及确定生物和技术偏差对反卷积性能的影响。
最近,Dietrich等人对第二代反卷积工具进行了全面的基准测试研究,利用一组平衡且合理设计的模拟和实验真值数据,同时确保再现性和可重用性。为了解决和系统地评估各种生物和技术混杂因素对方法性能的影响,他们使用了模拟器SimBu,它允许有效地生成合成的bulk RNA-seq数据集,即通过控制单细胞表达谱聚集产生的“伪bulk”。SimBu允许对细胞类型特异性mRNA水平进行建模,这是反卷积方法必须考虑的一个重要偏差,在以前的基准研究中被忽视了。用来自不同组织和生物体的真实RNA-seq样本来补充伪批量数据集,这些样本具有匹配的真实细胞分数。总体而言,作者们组装了超过1,400个真实和模拟RNA-seq样本的纲要,并匹配了真实细胞分数,以系统地测试方法在不同情况下的性能。他们的研究强调了最先进的工具的优势、局限性和互补性,揭示了不同的数据特征和混杂因素如何影响反卷积性能。作者们提供了一个工具和资源的生态系统,omnideconv(https://github.com/omnideconv/omnideconv/,图1),简化了反卷积方法的应用、基准测试和优化。
图1 omnideconv基准测试生态系统提供了五种工具(从左到右):R包omnideconv提供了反卷积方法的统一接口,伪bulk模拟方法SimBu, deconvData数据存储库,Nextflow中的deconvBench基准测试管道和web应用程序deconvExplorer。(B)基准实验概述:几种方法使用scRNA-seq和bulk RNA-seq数据作为输入,并计算每个bulk样本的估计细胞类型分数的统一输出。将估计分数与真值分数(从伪bulk或FACS/IHC实验中已知)进行比较,并计算每种方法和细胞类型的性能度量。(C)在本基准中解决了细胞类型反卷积中的几个挑战:(1)细胞类型显示总mRNA偏倚;(2) scRNA-seq数据集因技术、组织和疾病而异;(3)一部分细胞可能是未知类型的,因为scRNA-seq参比不一定包含大量混合物中存在的所有细胞类型;(4)一些细胞类型在转录组水平上更加相似,导致类似细胞类型的“溢出”。(D)评估了两个主要参数,这两个参数通常可以被反卷积方法的用户所采用,并影响估计质量:(1)scRNA-seq参考数据集中每种注释细胞类型的细胞数量;(2)注释精度水平
参考文献
[1] Alexander Dietrich, Lorenzo Merotto, Konstantin Pelz, Bernhard Eder, Constantin Zackl, Katharina Reinisch, Frank Edenhofer, Federico Marini, Gregor Sturm, Markus List, Francesca Finotello. Benchmarking second-generation methods for cell-type deconvolution of transcriptomic data. bioRxiv. 2024.06.10.598226; doi: https://doi.org/10.1101/2024.06.10.598226
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 17:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社