||
SBM:使用随机块模型重新评估基因共表达网络的模块化
基因共表达网络通过编码基因之间的关联来告知我们对细胞和机体功能的理解。表达水平之间的关联可以表明共同的功能,连接的数量可以指向中心或调控基因。由于基因表达数据的维度很大,通常由数千个基因表达测量组成,因此分析共表达的一个主要工具是基因聚类:将基因分成相关的组,然后可以单独探索。这大大减少了我们需要同时考虑的基因数量,并允许识别枢纽或中心连接的基因,这些基因可用于进一步的实验验证。
问题是,给定一个共表达网络,我们该如何聚类这些基因?几种方法背后的总体思路是寻找相似的基因,因为这些基因有望参与相关的生物学功能。然而,相似性的几个定义已经被使用。最基本的相似性度量借鉴了经典的形态整合理论,并试图根据它们的相关性找到基因模块。在这种情况下,同一模块中的基因应该是高度相关的,功能相似,而不同模块中的基因应该是低相关的。在这里,这种组内相关性高于组间相关性的经典模式称为分类性,并将组称为分类模块。其他方法使用相关性来创建其他相似性度量,然后将其用作聚类算法的输入。加权基因共表达网络分析(WGCNA)使用基因表达之间相关性的幂变换(或用这些转换后的相关性构建的拓扑相似性度量)作为相似性度量,然后使用分层聚类将其分成分类模块。WGCNA的主要目标之一是寻找枢纽基因,这些基因在模块内具有高连通性,并且可以通过分层聚类清晰地识别。其他方法借鉴网络分析,试图显式最大化加权基因网络的Newman模块化。例如,调节模块化聚类(MMC)使用自适应算法根据基因之间的相关性找到非线性距离,从而通过最大化模块化来最大化发现的模块数量。尽管这些方法在相似性的定义上有所不同,但它们都在基因表达网络上施加了一种分类结构。在这种结构中,相似基因之间的相关性比其他基因之间的相关性更强。
将基因聚类在紧密相关的模块中与直觉一致,即执行相似功能的基因组应该高度相关。然而,强加的分类性必然会忽略替代网络组织(如果它们存在的话),并可能阻止我们充分理解转录网络是如何组织的。例如,Betzel等人提供了除分类性之外的几个网络组织例子,如非分类网络,其中社区之间的顶点比社区内部的顶点具有更多的边缘;或者是核心-外围,其中一个中心社区与其他社区相连,但是外围社区不是内部连接的(图1)。这些替代架构也可以同时出现在同一网络中。我们目前缺乏关于这些模式在基因共表达数据中有多普遍的经验信息,仅仅是因为我们广泛应用的方法由于它们只关注分类性而完全对它们视而不见。鉴于其他生物网络,如神经元网络,显示出这些替代组织的明确证据,没有理由认为像转录组这样复杂和高维的系统应该局限于单一的组织模式。为了明确地解决这种替代网络组织的可能性,Melo等人使用了一种更一般的相似性度量,使我们能够找到有意义的基因群体,这些基因群体不一定是分类的,但仍然有明确的生物学解释。该方法在加权嵌套度校正随机块模型中实现(wnDC-SBM,或简称为SBM,该模型在类似应用中显示出良好的效果。SBM与其他聚类方法的不同之处在于,它不试图找到分类模块(即模块内相关性高于模块间相关性的模块)。相反,基因共表达网络中包含的任何信息都可以潜在地用于聚类。基因可以聚在一起,因为它们与其他基因具有相似的连接模式,而不管它们彼此之间的相关性更强,还是与其他基因簇中的基因的相关性更强。这里的“信息”一词应该从信息理论的意义上理解:在SBM中,集群被推断出来,以便在给定集群信息的情况下,最小化表示网络所需的比特数。可以肯定的是,如果存在,SBM可以捕获分类模块化模式,但它也足以捕获其他网络组织。此外,即使在SBM的背景下,分类性不是基因划分的主要驱动因素,它仍然可以用来解释我们获得的聚类。通过测量已识别集群的模块性,我们可以比较网络的模块性,而不需要比较一个最大化的度量来首先找到集群。这开启了对不同转录网络(例如,不同的细胞类型、组织、物种等)的模块化程度进行公正比较的可能性,这是一个迄今为止尚未探索的问题。
图1 三种网络架构的示意图。每个面板显示邻接矩阵(上)和相应的网络图(下)。(A)模块化架构:网络由五个不同的模块组成,每个模块包含十个相互关联的特征。模块之间通过一些模块间链路连接。(B)核心-外围架构:网络由单个密连的10个特征的核心模块和40个特征的外围组组成。外围组与核心模块相连,但内部连接很少。(C)非分类结构:网络由五组组成,每组有十个特征。每个群体的特征并不相互联系,而是与其他群体的特征相联系,形成组间联系的模式
在这里,作者们使用来自果蝇的多组织RNA-seq数据集,首先证明了SBM,一个没有自由参数的模型,可以比竞争方法找到更多的基因簇。其次,这些基因簇具有生物学意义,这是由高度特异性的基因本体富集所揭示的。第三,生物学意义并不局限于传统上认为的分类模块,而是延伸到转录组的非分类部分。研究结果强调了使用不依赖于分类指标的聚类算法来公正和无偏的探索转录组结构的重要性。
在这里,作者们发现非模块化块在基因共表达网络中广泛存在,并且它们的功能相关性的证据与模块化块一样强大。这突出表明,在探索生物网络时,除了分类性之外,还需要纳入其他信息来源。需要使用不依赖于模块化最大化的方法进行更多的研究,以确定是否存在非模块化组织的一般模式。
综上,以后找基因共表达模块,除了WGCNA工具包(只能找分类模块),推荐使用SBM方法同时找分类模块和非分类模块。本文的SBM脚本参见https://github.com/ayroles-lab/SBM-tools,通用SBM工具包可以参见sbm包(https://cran.r-project.org/package=sbm)。
参考文献
[1] Melo D, Pallares LF, Ayroles JF. Reassessing the modularity of gene co-expression networks using the Stochastic Block Model. PLoS Comput Biol. 2024;20(7):e1012300. doi: 10.1371/journal.pcbi.1012300.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 03:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社