||
TopOmics:所有组学的主题建模
生物复杂性源于多种分子因素在不同时空尺度上的相互作用。测序技术的重大进步使得能够直接测量许多这样的分子参与者,以及以单细胞或近单细胞分辨率的单细胞或近单细胞空间变异性定量。随着测序成本的降低,这些进步导致了大量复杂、高维数据集的激增,这些数据集对不同组织和生物过程进行了数百万个细胞的特征分析。
这种日益增长的数据复杂性和规模对建模领域提出了直接挑战:高效且信息丰富地总结这些海量数据需要可扩展、准确且可解释的无监督学习技术。提出的解决方案范围从基于深度学习的方法到多任务因子分析,在表达性-可解释性权衡之间取得了不同的平衡。
在这种情况下,主题模型已成为一个强大的框架,在灵活性和可解释性之间取得了吸引人的平衡:它们可以产生复杂的多模态数据分布,可以轻松扩展以包含非线性编码机制,同时通过将每个潜在方向与一个“主题”相关联来保持设计上可解释的性质,该主题再现了数据中变化的基本方向。最初在自然语言处理和自动标注的背景下开发,它们已被成功应用于建模单细胞转录组、表观基因组、多组学和空间转录组数据。虽然这些论文中提出的结果支持主题模型在单细胞分析工具箱中发挥重要作用,但它们的实现通常是针对特定数据类型的,每个独立的软件包中使用了不同的噪声模型、不同的先验和不同的估计算法。
最近,Sanguinetti等人介绍了 TopOmics(图1,https://github.com/fcaretti/TopOmics),一个用于单细胞和空间组学的主题建模模块化框架。该框架围绕一个可轻松扩展到大型数据集的摊销变分推理引擎构建,为用户提供多种似然选项,以灵活地对不同类型的数据进行建模。为了展示 TopOmics 的易用性,作者们展示了其在空间多组学和单细胞三组学数据上的结果。在这两种情况下,TopOmics 都是第一个能够处理这种数据类型的主题建模框架。

图1 (a) 在传统主题建模中,文档中的词频通过不同主题的贡献来建模。主题模型的扩展也可以应用于文档网络,例如引文网络,并且可以为文档的不同部分假设不同的词分布。(b) 在将主题模型应用于组学数据时,细胞或斑点是"文档",而观察到的模态扮演文档不同部分的角色。除了引文网络,空间信息可以以空间邻域图的形式纳入。(c) 与用于比较的竞争性方法的比较及其适用范围。(d) TopOmics、SHARE-Topic、MultiVI 和 MOFA+在具有不同细胞数量的合成 RNA+ATAC 数据集上的扩展时间。无法在 10 个或更多细胞上运行 MOFA+和 SHARE-Topic
参考文献
[1] Guido Sanguinetti, Nour El Kazwini, Federico Caretti. TopOmics: Topic Modelling for All Omics bioRxiv 2026.05.26.727810; doi: https://doi.org/10.64898/2026.05.26.727810
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-27 23:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社