||
HMFGraph:恢复生物网络的贝叶斯新方法
数据结构和多个变量之间的条件依赖关系可以轻松使用图模型进行了探索。高斯图模型(GGM)用于网络估计,它们提供了一种方便的方法来生成偏相关网络。它们已经被研究很长时间,并且开发了一系列方法,而最近贝叶斯方法越来越受欢迎。
使用 GGM 估计的生物学网络可以揭示数据变量之间的复杂关联,例如在基因表达数据集中发现基因共表达模式。GGM 是一般性工具,可应用于各种生物学数据集,推断例如癌症通路、代谢网络、蛋白质网络、基因网络或微生物组网络。GGM 提供了一种便捷且易于解释的表示方式,可能有助于研究人员做出新的生物学发现。这包括发现基因、操作分类单元(OUT)或其他组学变量之间新的联系,以及通过检查它们之间的聚类结构来识别可能在相关生物过程中潜在运作的基因群。此外,生物学网络有助于识别重要的癌症基因。生物学数据集通常具有在网络估计过程中必须考虑的特性。例如,它们可能是高维的,并且网络可能表现出无标度或聚类状结构。
使用 GGM时,假定数据遵循多元正态分布,部分相关结构由估计的逆协方差(精度)矩阵构建。精度矩阵的非零元素对应于不可忽略的部分相关性,这些相关性又决定了图的边。在高维情况下,即当样本数量少于变量数量时,我们需要对问题引入正则化,以便为协方差和精度矩阵产生良好条件的估计。GGM 最著名的频率方法是Glasso,它使用lasso惩罚来在估计的精度矩阵中引入稀疏性。
在贝叶斯框架下估计协方差矩阵和精度矩阵时,我们需要使用一个先验分布,以确保估计值是正定的并对估计器进行正则化。Wishart 分布和逆 Wishart 分布在精度矩阵和协方差矩阵的先验分布中是合适的,因为它们都满足这些标准。Wishart 分布也是(多元)正态分布数据的共轭先验分布,为相应的后验分布提供了封闭形式的表达式。因此,Wishart 和逆 Wishart 先验已被广泛应用于协方差矩阵和精度矩阵的估计中。由于 Wishart 分布只有一个调参参数,可能过于僵化,因此有一些对其的扩展。这些扩展包括分层 Wishart、矩阵-F(Wishart 的尺度混合)和灵活的逆 Wishart 先验。最近,Korhonen等人旨在通过提供一个矩阵-F 先验的分层版本来进一步扩展这一研究方向。
此前,Wishart 先验已被广泛应用于贝叶斯高斯图形模型(GGM)。Wishart 先验为精度矩阵引入了岭型正则化,这不会产生稀疏估计。如果偏爱稀疏性,则需要一个额外的后选择步骤(通过决策规则)来确定哪些元素可以设为零。此前,在此背景下已使用了几种决策规则,包括扩展贝叶斯准则、贝叶斯因子以及后验概率(可信区间)。以往研究使用经验贝叶斯方法为 Wishart 先验选择最优超参数,并解析计算贝叶斯因子的值,以有效选择图中的边。这种方法被证明在计算上极其高效。另一方面,它与其他 Wishart 先验模型一样,存在同样可能的问题,即灵活性不足。
一种针对 Wishart 分布的扩展,即 G-Wishart,是专为图模型开发的。在每次马尔可夫链蒙特卡罗(MCMC)步骤中都会生成一个图估计。G-Wishart 的主要缺点是它需要使用复杂的采样算法。虽然为 G-Wishart 存在一个直接采样器,但对于大型图来说,它计算量很大。
之前,在网络估计方法中已经使用了假发现率(FDR)控制。通过控制目标 FDR,我们可以对错误边的数量设定先验预期。例如,如果我们将目标 FDR 设置为 0.2,那么我们可以预期我们估计网络中 20%的边是错误的。在某些情况下,为了估计任何网络,我们必须容忍一定程度的假阳性。例如,过于稀疏的网络估计会使识别簇变得困难。通过管理 FDR,我们可以清楚地了解我们需要容忍多少假边。
在贝叶斯分析中,可以通过从后验密度中生成依赖样本来估计后验分布。这可以通过 MCMC 方法完成,其中最简单的方法之一是Gibbs采样器。当后验分布无法解析获得,但每个参数的完全条件分布可以推导时,Gibbs采样器适用。在具有共轭先验的情况下,Gibbs采样器很容易获得。通过使用 MCMC 方法,可以获得最大后验(MAP)估计和后验密度的形状(总结不确定性)。
作者们证明提出的HMFGraph方法(图1,https://github.com/AapoKorhonen/HMFGraph)在高维数据上表现良好,并且显著优于当前最先进的方法。它具有灵活性,在所有测试场景中均表现出良好的网络恢复性能。最后,作者们包含真实生物数据集的示例,并展示如何通过特定超参数的选择使所提出的先验更适合聚类和社区检测。

图1 所提出的用于网络恢复的贝叶斯方法HMFGraph流程图
参考文献
[1] Korhonen AE, Sarala O, Hautamäki T, Kuismin M, Sillanpää MJ (2025) HMFGraph: Novel Bayesian approach for recovering biological networks. PLoS Comput Biol 21(10): e1013614. https://doi.org/10.1371/journal.pcbi.1013614
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-13 14:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社