zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

GLDADec:标记基因引导的LDA模型用于bulk基因表达反卷积

已有 348 次阅读 2024-8-9 10:30 |个人分类:科普|系统分类:科普集锦

GLDADec:标记基因引导的LDA模型用于bulk基因表达反卷积

定量组织样本中细胞类型的比例,了解单个细胞类型对生理状态的贡献,如与扰动相关的免疫反应或对肿瘤细胞增殖样本的评估,是至关重要的。流式细胞法是一种典型的定量测定细胞类型组成比例的实验方法,在分子生物学和免疫学中有着广泛的应用。然而,它的应用仅限于新鲜器官,人体组织标本分析具有挑战性,并且对流式细胞数据聚集的知识有限,使得难以利用遗留数据。

高通量测序技术的进步带来了丰富的转录组数据存储。bulk转录组测量来自各种细胞类型的基因表达水平的积累,可以使用几个完善的数据库进行广泛的分析。虽然单细胞测序技术的数据库也是最近的一项创新,但其高成本和空间特性使其难以进行大规模数据分析。因此,建立一种方法从bulk转录组中估计组成细胞的比例是有用的。

反卷积是一种计算方法,可用于利用转录组数据估计样本中免疫细胞的比例。近年来,人们提出了几种反卷积方法,从bulk表达数据推断细胞类型比例。这些方法可分为两大类:无参考文献法和基于参考文献法。无参考文献法仅根据待分析样本估计细胞类型比例,因此对可能导致混淆因素的外部信息不太敏感。这种方法对于组成细胞类型没有明确定义的组织数据是合理的,因为可以使用似然和其他因素来估计组成细胞的数量。然而,识别推断的成分及其相关的细胞是一个挑战,特别是在更详细的细胞类型中,从而使下游任务更难以解释。相比之下,基于参考的方法利用细胞类型特异性基因表达谱作为先验信息。虽然已经取得了一些显著的成功,但这些方法的性能取决于参考数据的质量和待分析数据之间的批对批差异。因此,基于参考的方法仅适用于定义良好且有适当参考数据可用的特定场景。虽然它们对具有明确定义的组成细胞类型(如血液)的模拟数据集或样本有效,但它们可能低估了来自非参考细胞的基因表达谱的影响。

潜狄利克雷分配(Latent Dirichlet Allocation, LDA)是在自然语言处理的背景下发展起来的,它被广泛应用于文本嵌入或文档语义提取等各个领域。LDA模型旨在识别构成文档内容的主题,这类似于反卷积,一种从bulk转录组数据中提取细胞类型特定信息的方法。然而,由于LDA是一种无监督学习方法,当简单地应用于反卷积时,它被归类为无参考,这在细胞可识别性方面提出了挑战。为了解决这个问题,已经开发了几种方法,将先验信息纳入LDA算法并将其扩展到半监督学习。虽然这些概念是合乎逻辑的,但它们依赖于从纯细胞系或单细胞RNA-Seq中获得的表达水平作为先验知识,这很容易受到技术偏差的影响,并对目标大样本的分布差异施加限制性假设。

在这里,Azuma等人提出了一种新的引导LDA反卷积(GLDADec)方法(图1),该方法利用标记基因名称作为部分先验信息来估计细胞类型比例,从而同时克服了传统基于参考和无参考方法的挑战。GLDADec采用半监督学习算法,将细胞类型标记基因与可能影响基因表达谱的其他因素结合起来,以实现对细胞类型比例的稳健估计。此外,使用中位数选择策略对输出进行聚合,以获得更准确的估计。GLDADec与使用具有明确组成细胞的血液来源样本的现有方法进行基准测试,并且在多个数据集上始终优于现有方法。GLDADec应用于小鼠和大鼠药物性肝损伤模型的肝体积RNA-Seq数据,证明了其在组织数据分析中的实用性。GLDADec考虑了其他主题,反映了组织背后的生物过程,并提供了对引导靶细胞类型的稳健估计。此外,通过以数据驱动的方式收集标记基因名称,并将其用作综合细胞类型的先验信息,可以估计常规方法无法获得的更大范围的细胞类型。作为进一步的证明,GLDADec应用于人类肿瘤样本,揭示了癌症亚型和临床预后分层的新见解。GLDADec是一个开源软件包,可以在https://github.com/mizuno-group/GLDADec上获得。

image.png

1 GLDADec框架

参考文献

[1] Azuma I, Mizuno T, Kusuhara H. GLDADec: marker-gene guided LDA modeling for bulk gene expression deconvolution. Brief Bioinform. 2024;25(4):bbae315. doi:10.1093/bib/bbae315

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1445732.html

上一篇:BCI工具包:贝叶斯因果推断的开源Python包
收藏 IP: 39.128.48.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-8-15 10:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部