||
单细胞多组学数据与图主题模型整合
生物系统的涌现表型源于复杂的分子相互作用。这些相互作用在基因表达的多个层面发挥作用调控:基因组、表观基因组、转录组和蛋白质组。表征这种调控行为对于研究这些过程至关重要,它是开发药物和靶向个性化医疗策略以及其他转化应用(如药物发现和验证或肿瘤微环境分析)的关键步骤。单细胞测序技术的最新进展,如 10X Multiome 和 SHARE-seq,能够进行单细胞水平的基因表达和染色质可及性分析。此外,CITE-seq等技术不仅能够分析基因表达,还能通过抗体衍生标签(ADT)测量表面分子。所有这些技术都在为理解复杂的基因调控机制开辟新的途径。
实验方案的开发对科学界提出了新的挑战:算法和下游流程必须适应以整合成对和多特征数据。特别是,在分析这些数据时,人们通常对其模块化结构感兴趣。主要目标是识别协同作用的基因组和基因组位点组,以及具有相似分子模式的细胞组。鉴于数据的多元性,重点可以放在基因组、ATAC-seq 峰、ADT或任何测量所代表特征的组上。此外,将跨组学层级的这些模块结构联系起来,并利用这些模块推断细胞内的簇,这是一个高度非平凡的任务。近年来已提出了几种算法来解决这个问题。一种流行的方法是深度学习。深度学习方法,如自动编码器,能进行有效的降维,但它们对输入尺度的差异敏感,这是多元模态数据的一个关键特征。为了克服这些限制,Malagoli等人将专注于基于主题建模的一类算法。
主题建模算法最初是在自然语言处理(NLP)领域开发的,用于通过仅使用词语频率作为输入,自动识别文本语料库中的"主题"。它们可以将"讨论同一主题"的词语集合进行分组,并以此方式识别文本的主题。这项任务与基因调控的任务之间存在明显的类比关系。如果把文本映射到细胞,把词语频率映射到基因表达水平、ATAC-seq 峰开放度/ADT 水平,那么上述相同的方法可以用来根据分子测量模式的特征来识别和描述细胞群体。在这个类比中,主题是协同作用的基因/开放基因组位点/表面蛋白的集合,而这些调控组和通路可以用来描述不同的细胞群体。使用主题建模方法处理单细胞数据的原理是,细胞的转录组表现出与文本中词语相似的统计特性。
主题模型算法最有趣的特点之一是它们输出每个主题中细胞所属的概率分布,这比简单的、确定性的关联(即细胞被简单地分配到一个组或簇)更能描述生物系统的复杂性。另一方面,主题不仅是一系列位点;它们被描述为覆盖所有基因组特征的概率分布。
目前最流行的主题模型要么基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)、非负矩阵分解(Non-Negative Matrix factorisation,NMF)或随机块模型(Stochastic Block Models,SBM)。LDA 通过假设主题内单词分布以及文档内主题分布的狄利克雷先验来处理主题建模问题(在设置中,对应于主题内基因、峰和 ADT 的分布以及细胞内主题的分布)。这种先验的选择没有生物学基础;它仅仅是为了方便地解决主题建模问题。由于狄利克雷分布是单峰的,无论超参数的选择如何,它都假设单词到主题以及主题到文档的分布具有单一形状,这是一个强同质性假设,难以与生物系统的异质性相协调。另一种常见方法是非负矩阵分解(NMF),它在计算上也非常有效。 然而,它有两个主要局限性:其线性限制了理解复杂相互作用的能力,而生物系统中典型的复杂相互作用正是如此;它倾向于在簇之间找到陡峭的边界,这在处理高度异构数据时(如单细胞测序)可能是个问题。因此,在基于随机块模型(SBM)的第三类主题模型中,作者们将重点关注以下方面。作者们提出了一种基于图的 bionSBM 方法,用于整合和解释配对的单细胞多组学数据(图1,https://github.com/gmalagol10/bionsbm)。bionSBM 可以根据用户需要考虑的任何模态(峰、ADTs、mRNA、完整的转录组等)对细胞进行聚类,并平等对待它们。它不施加单峰先验,而是定义了一种无偏先验,以更好地拟合主题-细胞和特征-主题分布。该算法是长期将 SBM 方法应用于生物医学数据努力的一部分,始于为基因表达数据构建 SBM 基于主题建模的层次版本(hSBM),然后扩展到批量组织多组学数据(nSBM),再到单细胞基因表达数据,最终扩展到单细胞多组学数据。在本文中,作者们首先描述 bionSBM 的主要特征,然后将其与两种用于单细胞数据分析的主题建模算法进行比较,分别是 ShareTopic和 Mowgli,它们分别是基于 LDA 和 NMF 的多模态单细胞分析的最先进算法。

图1 bionSBM 算法示意图。(A) 数据作为计数矩阵输入。(B) 输入矩阵用于构建多部分网络:如果特征在细胞中表达/开放,则特征通过加权边连接到细胞分支,但特征不连接。(C) bionSBM 找到最佳块模型,将细胞分组到集群并将特征分组到主题。(D) 通过使用集群内的主题分布概率,可以轻松获得细胞分组的解释
参考文献
[1] Gabriele Malagoli, Filippo Valle, Andreina Tirabassi, Annalisa Marsico, Loredana Martignetti, Michele Caselle, Maria Colomé-Tatché. Integration of single-cell multi-omic data with graph-based topic modeling. bioRxiv 2026.02.25.707947; doi: https://doi.org/10.64898/2026.02.25.707947
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-21 20:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社