zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

TopOmics:所有组学的主题建模

已有 599 次阅读 2026-6-13 19:48 |个人分类:科普|系统分类:科普集锦

TopOmics:所有组学的主题建模 

生物复杂性源于多种分子因素在不同时空尺度上的相互作用。测序技术的重大进步使得能够直接测量许多这样的分子参与者,以及以单细胞或近单细胞分辨率的单细胞或近单细胞空间变异性定量。随着测序成本的降低,这些进步导致了大量复杂、高维数据集的激增,这些数据集对不同组织和生物过程进行了数百万个细胞的特征分析。 

这种日益增长的数据复杂性和规模对建模领域提出了直接挑战:高效且信息丰富地总结这些海量数据需要可扩展、准确且可解释的无监督学习技术。提出的解决方案范围从基于深度学习的方法到多任务因子分析,在表达性-可解释性权衡之间取得了不同的平衡。 

在这种情况下,主题模型已成为一个强大的框架,在灵活性和可解释性之间取得了吸引人的平衡:它们可以产生复杂的多模态数据分布,可以轻松扩展以包含非线性编码机制,同时通过将每个潜在方向与一个“主题”相关联来保持设计上可解释的性质,该主题再现了数据中变化的基本方向。最初在自然语言处理和自动标注的背景下开发,它们已被成功应用于建模单细胞转录组、表观基因组、多组学和空间转录组数据。虽然这些论文中提出的结果支持主题模型在单细胞分析工具箱中发挥重要作用,但它们的实现通常是针对特定数据类型的,每个独立的软件包中使用了不同的噪声模型、不同的先验和不同的估计算法。 

最近,Sanguinetti等人介绍了 TopOmics(图1https://github.com/fcaretti/TopOmics),一个用于单细胞和空间组学的主题建模模块化框架。该框架围绕一个可轻松扩展到大型数据集的摊销变分推理引擎构建,为用户提供多种似然选项,以灵活地对不同类型的数据进行建模。为了展示 TopOmics 的易用性,作者们展示了其在空间多组学和单细胞三组学数据上的结果。在这两种情况下,TopOmics 都是第一个能够处理这种数据类型的主题建模框架。

image.png

1  (a) 在传统主题建模中,文档中的词频通过不同主题的贡献来建模。主题模型的扩展也可以应用于文档网络,例如引文网络,并且可以为文档的不同部分假设不同的词分布。(b) 在将主题模型应用于组学数据时,细胞或斑点是"文档",而观察到的模态扮演文档不同部分的角色。除了引文网络,空间信息可以以空间邻域图的形式纳入。(c) 与用于比较的竞争性方法的比较及其适用范围。(d) TopOmicsSHARE-TopicMultiVI MOFA+在具有不同细胞数量的合成 RNA+ATAC 数据集上的扩展时间。无法在 10 个或更多细胞上运行 MOFA+ SHARE-Topic 

参考文献

[1] Guido Sanguinetti, Nour El Kazwini, Federico Caretti. TopOmics: Topic Modelling for All Omics bioRxiv 2026.05.26.727810; doi: https://doi.org/10.64898/2026.05.26.727810 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1539221.html

上一篇:MNDGNN:有向图神经网络用于癌症驱动基因识别
下一篇:ENCORI:RNA互作组的百科全书式调控和功能图谱



    
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-27 23:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部