博文

单样本网络建模的挑战与机遇

已有 229 次阅读 2026-4-11 10:53 |个人分类:科普|系统分类:科普集锦

单样本网络建模的挑战与机遇

网络建模方法为理解驱动生物系统的机制提供了一个重要的框架。许多方法已被开发用于推断生物网络，通常利用来自多个样本的数据构建单一的代表性模型。分析代表不同生物状态的单个或少数几个网络可以为健康和疾病提供重要的见解。然而，这类方法在揭示网络如何在群体中变化方面存在局限性。一些方法通过将组学数据叠加到已知的网络结构（例如参考蛋白质-蛋白质相互作用网络或基因调控网络）上来克服这一局限性；这些方法随后计算节点的样本特异性得分，或基于来自单个组学样本的数据修改参考网络中的节点/边。最近，Kuijjer等人重点介绍一组独特的算法，这些算法可用于直接推断单样本网络中所有可能边的值（或权重）。尽管这些类型的单样本网络方法最常应用于基因表达数据，但也已用于分析其他类型的组学数据，如代谢组学、微生物组和基因型数据。

最早提出的直接推断样本特定网络的方法包括 LIONESS（用于获取单样本网络估计的线性插值法）和 SSN（样本特异网络）。这两种方法是独立开发的，并在一年内相继发布在预印本服务器上。LIONESS 和 SSN 都可以被视为用于估计样本特异网络的数学公式。LIONESS 方程的推导与方法无关，它模拟了一个包含共享信息（即输入总体中共有的边）和样本特异信息（即特异于单个样本的边）的样本特异网络。这意味着 LIONESS 预测的边值取决于一个配套的“聚合”网络推断算法。在他们的论文中，Kuijjer 等人提出了一种基于 LIONESS 的 SSN 算法，该算法能够有效地估计样本特定网络的共享信息。将 LIONESS 应用于使用 Pearson 相关、互信息、PANDA和 CLR构建的网络，这四种方法均基于输入数据集中所有样本的信息返回单个网络。其他研究者已将 LIONESS 应用于使用多种不同算法构建的网络，包括偏相关、MI/ARACNe、PANDA、主成分和 rMAGMA。

相比之下，SSN 专门用于推断样本特异相关网络。SSN 利用统计框架（Z 分数）来捕捉向数据集中添加单个样本对原始“参考网络”的扰动程度。因此，SSN 预测的边值类似于 Z 分数。与 LIONESS 不同，SSN 仅推断样本特定的网络信息（而不是共享信息和样本特定信息）。另一个相关方法是 SWEET。加权相关网络）使用了 LIONESS 方程的改进版本，旨在解释亚群体结构。在他们的论文中，Chen 等人仅将 SWEET 应用于从 Pearson 相关性导出的网络。另一种近期方法 BONOBO使用贝叶斯模型来导出样本特异性相关矩阵。BONOBO 是唯一一种其预测的样本特异性网络旨在具有类似于 Pearson 相关性的统计特性的方法。SSN、SWEET 和 BONOBO 共同代表了三种专门开发或提出的、旨在推断样本特异性相关网络的方法。最近，Kuijjer等人将深入探讨这三种方法，并将它们应用于 Pearson 相关性（称为 LIONESS::PCC）时的预测结果进行比较。

一些单样本网络方法已被开发出来，可以捕捉更复杂的关系。例如，如上所述，Kuijjer 等人在他们的论文中将 LIONESS 应用于互信息网络。CSN（细胞特异性网络）最初是为单细胞基因表达数据应用而开发的，它也利用了一种类似于互信息估计的方法，即对表达值进行分箱以估计每个基因的概率分布；这些分布用于定义基因对的细胞特异性归一化联合概率。CSN 的数学原理也被应用于使用批量表达数据推断样本特异性网络。在这种情况下，CSN 中的每个“细胞”都是批量数据集中的一个“样本”。Kuijjer等人将探讨这两种“非线性方法”：应用 LIONESS 的互信息网络（简称 LIONESS::MI）和 CSN（在批量数据的背景下）。

尽管这些方法的目标相同，但它们的数学表述方式却不一致，不同的变量名被用来表示相似的概念。这使得系统地评估这些单样本网络方法的相似性、差异性和优势变得极具挑战性。近期的一些基准测试研究比较了这些方法在各种实际场景下的性能。虽然这些研究的结果通过对方法的预测进行独立表征填补了关键空白，但它们并未解释为什么某种方法在特定情况下表现更好（或更差）。

本文探讨了五种单样本网络方法（LIONESS、SSN、SWEET、BONOBO 和 CSN）的数学框架（图1，https://github.com/kimberlyglass/single-sample-networks/tree/main）。通过使用通用变量重新构建定义这些方法的方程，能够更清晰地阐明它们的相似之处并刻画它们的关键差异。这还使我们能够考察每种方法的参数、局限性和潜在假设，并确定这些因素如何影响单样本网络预测。与以往侧重于方法准确性或预测能力的基准研究不同，本研究的主要目标是识别单样本网络方法中共同的数学主题，并深入探讨不同的方法参数和数据特征如何影响方法预测和感知性能。其目标是通过提供方法的统一数学公式、对方法参数的理解以及对这些参数如何影响单样本网络预测的刻画，帮助其他研究人员建立对单样本网络方法工作原理的直观理解。

图1 基于皮尔逊相关性的四种单样本网络方法的数学公式

本文探讨了五种单样本网络方法的数学公式、参数及其相关输出。这五种方法包括四种在皮尔逊相关性背景下明确推导或可应用于皮尔逊相关性的方法（LIONESS::PCC、SSN、SWEET 和 BONOBO），以及两种“非线性”方法（LIONESS::MI 和 CSN）。通过将四种线性单样本网络方法的数学表达式转化为通用变量，作者们发现了它们之间的诸多协同作用以及关键差异。通过将这些方法应用于玩具数据和“真实世界”基因表达数据，阐明了方法特定参数如何影响单样本网络预测。结果表明，基于这些方法的数学公式，建立对其的直观理解至关重要。

尽管四种线性方法预测的单样本边权重通常高度相关，但分析表明，这种相关性的性质往往取决于具体情况和参数。例如，LIONESS 依赖于底层网络重建方法，例如 Pearson 相关系数（LIONESS::PCC）或互信息（LIONESS::MI），而 SSN 则计算一个统计量（Z 分数），用于表征样本网络与参考群体网络的差异程度。尽管存在这些概念上的差异，LIONESS::PCC 和 SSN 的数学公式非常相似（见图 1），这两种方法预测的边权重始终完全相关，仅在数值大小上有所不同。相比之下，SWEET 和 BONOBO 的公式包含样本特定的尺度因子，这些因子取决于输入数据中的所有实体（例如基因）。分析表明，这些尺度因子降低了 SWEET 和 BONOBO 方程中差异相关/协方差项的影响。结果是，这些方法预测的边权重总是非常接近“聚合”皮尔逊相关网络。

在 SWEET 中，样本特定尺度因子 (K × S_q) 的目标是消除因亚群体规模差异而导致的潜在偏差。作者们发现，对于来自较小亚群体的样本，该尺度因子的值始终较低，这使得这些样本的预测边权重分布更加集中，从而导致边权重变异性始终较低。来自两个亚群体中较大亚群体的样本之间边权重变异性的相应增加，可能导致这些样本中边权重高于给定阈值的比例增加，从而造成偏差。相比之下，BONOBO 使用的样本特定尺度因子的值在不同样本间变化不大，而是取决于输入数据的异质性。此外，该尺度因子可能会受到输入数据预处理和/或归一化方式的无意影响。例如，数据预处理导致非常高的尺度因子值。样本特异性尺度因子的既定目标是解释由于亚群体大小差异而导致的潜在偏差。平均方差或所有基因间高度一致的方差会导致尺度因子趋近于零，从而使所有边的权重趋近于“聚合”皮尔逊相关系数。在玩具数据分析中观察到了这一结果，发现使用尺度因子默认值会导致 BONOBO 的预测结果与所有其他测试方法的预测结果呈负相关。考虑到这一点，用户手动将尺度因子设置为常数可能更有益。

两种非线性方法（LIONESS::MI 和 CSN）预测的单样本边权重通常也存在相关性；然而，非线性方法预测的边权重与线性方法预测的边权重往往存在差异。例如，在玩具数据分析中，观察到两种非线性方法都赋予构成非线性边 X 模式的所有样本较高的权重，而线性方法通常赋予位于 x = y 对角线上的样本更高的权重。鉴于这些注意事项，建议未来的研究在使用这些方法时，应评估任何感兴趣的边所源自的底层数据。LIONESS 的一个优势在于它可以应用于不同的底层聚合网络重建方法。事实上，它常用于对样本特异性基因调控网络（而非相关网络）进行建模。然而，简单地应用 LIONESS 可能会存在一些缺陷。例如，虽然使用 LIONESS::MI 和 CSN 得到了相似的结果，但 CSN 的计算效率更高，运行速度也始终比 LIONESS::MI 快得多。这是因为 CSN 专门针对识别样本特定的非线性关系进行了优化，而 LIONESS 是一个可以应用于互信息 (MI) 的方程，但它并没有直接包含任何关于 MI 计算方式的信息。LIONESS 之前已针对 Pearson 相关性和 ARACNe的应用进行了优化；针对 MI 的应用进行优化可能是一个很有前景的未来研究方向。

该分析同时强调了过度依赖模拟数据可能存在的风险，以及利用模拟数据进行方法评估的强大之处。特别是，在评估时观察到的极低值以及发现的群体亚结构并非有意为之。相反，这些是分析过程中意外发现的特征，并最终追溯到我们生成这些数据的方式。然而，由于这些意外特征独特且易于量化，我们能够利用这些发现更好地理解如何与特定数据特征相互作用。如果我们仅依赖真实数据，数据中复杂且重叠的亚结构可能会妨碍我们清晰地描述这些参数。差异表达、差异相关性和亚群体大小的差异都会影响预测的边权重。其他未在此处探讨的特征，例如差异变异性、重叠的亚群体和/或数据稀疏性，也可能影响单样本网络预测。即使是我们分析中使用的“真实世界”表达数据，也存在一些可能无意中影响边权重预测的结构特征。例如，这些数据包含来自每种组织的等量样本，并且仅包含在所有组织中均表达的基因。尽管如此，这些数据与 BONOBO 和 SWEET 的基本假设相符，这对于参数的公平评估是必要的。

最后的分析探讨了数据异质性对单样本网络预测的影响。在不同的表达水平和亚群异质性下，结果表明，在尝试同时预测跨样本共享的网络边和特定于给定样本的网络边时，存在一个关键的权衡。具体而言，BONOBO 和 SWEET 的预测网络与“聚合”网络高度相似，它们始终能够预测出最准确但特异性最低的网络，而 SSN 则预测出特异性最高但准确性最低的网络。LIONESS::PCC 则介于两者之间，在大多数评估中，其准确率几乎与 SWEET 和 BONOBO 一样高，特异性几乎与 SSN 一样高。单样本网络算法的输出通常直接用于分析以识别生物信号，或用作其他下游算法的输入。在这种更广泛的背景下，预测网络的准确性和特异性之间的权衡至关重要。样本特异性网络建模的主要目标是获得特定于给定样本的网络。如果不需要或不希望具有特异性，结果表明，分析“聚合”网络可能比使用 SWEET 或 BONOBO 生成一组非特异性的样本特定网络更有效。

这些结果也凸显了对单样本网络方法进行基准测试的挑战性。作者们发现，基准数据的设计方式以及基因、边和性能指标的选择都会影响人们对方法性能的感知。认识到这些问题对于方法开发人员尤为重要，因为在特定情况下展现出卓越的性能通常是发表论文的必要条件。此外，描述新方法的潜在缺陷和局限性有时会导致审稿人提出不利的意见。这种现状鼓励论文强调并利用现有方法的局限性，并导致比较分析倾向于将新方法置于最有利的位置。这可能会导致已发表文献中出现偏差。

另一个复杂因素是，运行其他方法有时会很困难，因为它们通常使用不同的编程语言编写，且文档水平参差不齐。理解各种方法的假设、参数和内部运作机制，并以一致的方式重新实现它们，也需要付出大量努力。然而，研究表明，如果未能做到这一点，可能会无意中忽略现有方法之间重要的协同作用。基于此，Kuijjer等人工作为单样本网络推断领域指明了重要的发展机遇。他们倡导该领域以及其他计算生物学领域的新方法，力求使用统一的数学术语（例如在图 1 中展示的术语）与现有方法进行比较。审稿人也应赞扬作者为展示新方法与现有方法之间的协同作用和差异所做的努力，并鼓励发表能够体现新方法成功之处和不足之处的研究结果。尽管这样做需要作者和审稿人付出大量努力，但如果双方共同努力，整个学术界将会更加强大。

参考文献

[1] Marieke Kuijjer, Margherita De Marzio, Kimberly Glass. Challenges and Opportunities in Single-Sample Network Modeling bioRxiv 2026.02.27.708608; doi: https://doi.org/10.64898/2026.02.27.708608

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC