博文

单细胞多组学数据与图主题模型整合

已有 2058 次阅读 2026-3-21 10:37 |个人分类:科普|系统分类:科普集锦

单细胞多组学数据与图主题模型整合

生物系统的涌现表型源于复杂的分子相互作用。这些相互作用在基因表达的多个层面发挥作用调控：基因组、表观基因组、转录组和蛋白质组。表征这种调控行为对于研究这些过程至关重要，它是开发药物和靶向个性化医疗策略以及其他转化应用（如药物发现和验证或肿瘤微环境分析）的关键步骤。单细胞测序技术的最新进展，如 10X Multiome 和 SHARE-seq，能够进行单细胞水平的基因表达和染色质可及性分析。此外，CITE-seq等技术不仅能够分析基因表达，还能通过抗体衍生标签（ADT）测量表面分子。所有这些技术都在为理解复杂的基因调控机制开辟新的途径。

实验方案的开发对科学界提出了新的挑战：算法和下游流程必须适应以整合成对和多特征数据。特别是，在分析这些数据时，人们通常对其模块化结构感兴趣。主要目标是识别协同作用的基因组和基因组位点组，以及具有相似分子模式的细胞组。鉴于数据的多元性，重点可以放在基因组、ATAC-seq 峰、ADT或任何测量所代表特征的组上。此外，将跨组学层级的这些模块结构联系起来，并利用这些模块推断细胞内的簇，这是一个高度非平凡的任务。近年来已提出了几种算法来解决这个问题。一种流行的方法是深度学习。深度学习方法，如自动编码器，能进行有效的降维，但它们对输入尺度的差异敏感，这是多元模态数据的一个关键特征。为了克服这些限制，Malagoli等人将专注于基于主题建模的一类算法。

主题建模算法最初是在自然语言处理（NLP）领域开发的，用于通过仅使用词语频率作为输入，自动识别文本语料库中的"主题"。它们可以将"讨论同一主题"的词语集合进行分组，并以此方式识别文本的主题。这项任务与基因调控的任务之间存在明显的类比关系。如果把文本映射到细胞，把词语频率映射到基因表达水平、ATAC-seq 峰开放度/ADT 水平，那么上述相同的方法可以用来根据分子测量模式的特征来识别和描述细胞群体。在这个类比中，主题是协同作用的基因/开放基因组位点/表面蛋白的集合，而这些调控组和通路可以用来描述不同的细胞群体。使用主题建模方法处理单细胞数据的原理是，细胞的转录组表现出与文本中词语相似的统计特性。

主题模型算法最有趣的特点之一是它们输出每个主题中细胞所属的概率分布，这比简单的、确定性的关联（即细胞被简单地分配到一个组或簇）更能描述生物系统的复杂性。另一方面，主题不仅是一系列位点；它们被描述为覆盖所有基因组特征的概率分布。

目前最流行的主题模型要么基于潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）、非负矩阵分解（Non-Negative Matrix factorisation，NMF）或随机块模型（Stochastic Block Models，SBM）。LDA 通过假设主题内单词分布以及文档内主题分布的狄利克雷先验来处理主题建模问题（在设置中，对应于主题内基因、峰和 ADT 的分布以及细胞内主题的分布）。这种先验的选择没有生物学基础；它仅仅是为了方便地解决主题建模问题。由于狄利克雷分布是单峰的，无论超参数的选择如何，它都假设单词到主题以及主题到文档的分布具有单一形状，这是一个强同质性假设，难以与生物系统的异质性相协调。另一种常见方法是非负矩阵分解（NMF），它在计算上也非常有效。然而，它有两个主要局限性：其线性限制了理解复杂相互作用的能力，而生物系统中典型的复杂相互作用正是如此；它倾向于在簇之间找到陡峭的边界，这在处理高度异构数据时（如单细胞测序）可能是个问题。因此，在基于随机块模型（SBM）的第三类主题模型中，作者们将重点关注以下方面。作者们提出了一种基于图的 bionSBM 方法，用于整合和解释配对的单细胞多组学数据（图1，https://github.com/gmalagol10/bionsbm）。bionSBM 可以根据用户需要考虑的任何模态（峰、ADTs、mRNA、完整的转录组等）对细胞进行聚类，并平等对待它们。它不施加单峰先验，而是定义了一种无偏先验，以更好地拟合主题-细胞和特征-主题分布。该算法是长期将 SBM 方法应用于生物医学数据努力的一部分，始于为基因表达数据构建 SBM 基于主题建模的层次版本（hSBM），然后扩展到批量组织多组学数据（nSBM），再到单细胞基因表达数据，最终扩展到单细胞多组学数据。在本文中，作者们首先描述 bionSBM 的主要特征，然后将其与两种用于单细胞数据分析的主题建模算法进行比较，分别是 ShareTopic和 Mowgli，它们分别是基于 LDA 和 NMF 的多模态单细胞分析的最先进算法。

图1 bionSBM 算法示意图。(A) 数据作为计数矩阵输入。(B) 输入矩阵用于构建多部分网络：如果特征在细胞中表达/开放，则特征通过加权边连接到细胞分支，但特征不连接。(C) bionSBM 找到最佳块模型，将细胞分组到集群并将特征分组到主题。(D) 通过使用集群内的主题分布概率，可以轻松获得细胞分组的解释

参考文献

[1] Gabriele Malagoli, Filippo Valle, Andreina Tirabassi, Annalisa Marsico, Loredana Martignetti, Michele Caselle, Maria Colomé-Tatché. Integration of single-cell multi-omic data with graph-based topic modeling. bioRxiv 2026.02.25.707947; doi: https://doi.org/10.64898/2026.02.25.707947

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC