||
网络动物园:基因调控网络推断和分析的多语言包
生物表型是由一个复杂的相互作用元素网络驱动的,该网络定义了细胞类型并决定了对扰动的反应。这些相互作用可以通过评估生物元件、它们的共表达和它们的共同依赖性之间的物理结合来建模,以确定共同控制给定表型出现的功能模块。一种特殊类型的网络是基因调控网络(GRN),它由调控因子及其靶基因组成。一种类型的调控因子是转录因子(TF),与DNA结合以激活或抑制基因转录的调节蛋白。TF经常形成复合物,共同作用来调节转录,TF活性可进一步受到表观遗传的影响诸如启动子甲基化或组蛋白乙酰化的修饰。其他基因表达的调节因子包括microRNA (miRNA),它们在转录后起作用,主要是降解并随后抑制其mRNA靶标的表达。这些因素和其他因素共同调节基因组中超过两万五千种蛋白质编码基因的表达,改变细胞过程,赋予细胞对各种刺激作出反应的潜力。
尽管测序技术发展迅速,但GRN的大小和复杂性使其无法直接测量。因此,尽管不是所有的基因调控过程都是模型,但已经有许多尝试使用计算方法来表示它们。
已经开发了许多用于GRN推断和分析的强大方法,每种方法都利用了单个研究中可用的多种数据类型。每种方法都是基于使用已知的生物相互作用作为先验信息来指导网络从数据中进行推理,寻求各种输入数据源之间的一致性,以识别共同的潜在生物信号。重建网络的方法包括PANDA,该方法通过首先假设一个先验的调节网络,然后通过寻找基因共表达和TF蛋白-蛋白相互作用(PPI)之间的一致性来迭代优化其结构,从而推断出TF及其靶基因的调控网络。利用从目录(如CIS-BP)中提取的TF基序,通过扫描靶基因启动子区序列(例如,使用FIMO)来构建转录因子结合位点(TFBS)的先验调控网络。输入的TF PPI数据可以从STRING等资源中获得,基因共表达则从所分析的特定实验中获得。这一推断是基于这样的概念,即相互作用的TF共同调节它们的靶基因,而共同表达的基因可能受到同一组TF的调节。PANDA使用消息传递迭代地更新所有三个数据集,最大限度地提高它们之间的一致性,直到它收敛到一个特定于数据集的调控网络上,该网络具有TF与其调控靶标之间的交互得分。OTTER采用相同的输入,但使用图匹配作为网络优化解决方案的替代实现。SPIDER使用表观遗传数据,如DNA可及性的DNA-seq测量,来告知PANDA优先网络关于上下文特定的可达染色质区域。EGRET使用cis-eQTL数据为该方法提供基因型特异性先验。PUMA通过在初始先验网络中包括miRNA靶标预测来扩展PANDA的调控框架,以捕获TF和miRNA对靶基因/ mRNA的调控。
LIONESS是一种通用的单样本网络方法,可以与任何网络推理方法一起使用。它迭代地剔除单个样本,并使用线性插值来推断原始样本集中每个样本的样本特定网络。LIONESS输出单个样本边缘权重,可以作为每个样本的推断度量,允许在相关网络上进行统计比较。LIONESS的一个关键用例是使用PANDA来推断特定于样本的GRN。DRAGON是一种将多个数据源集成到高斯图形模型(GGM)中的灵活方法。GGM与相关网络的不同之处在于,偏相关校正了变量之间的虚假相关性;由DRAGON推断出的多组网络表示用于网络推断的不同数据类型之间的直接关联。DRAGON与PANDA和其他类似的网络推理方法的不同之处在于,GGM是无向的单分网络,而不是二分GRN。
netZoo中的第二组方法是通过识别高度连接的网络“群落”并比较这些群落在不同表型状态下的结构来识别和探索GRN中的高阶结构。CONDOR识别二分图中的社区(包括eQTL和TF-gene网络),而ALPACA通过超越简单的边权差异,使用完整的网络结构来寻找差异社区,从而发现两个网络之间的差异社区结构,例如在案例与对照设置中。CRANE基于模拟的网络集成基线评估了ALPACA发现的差异模块的重要性,同时保留了GRN的特定结构和约束。在这方面,CRANE提供了一个有效的工具来对GRN的差异群落结构进行假设检验推断。第四种方法是MONSTER,它将相关生物状态之间的转变视为第一网络受调控转变的影响,包括改变转录因子与其靶基因的连接。在数学上,MONSTER通过识别一个“过渡矩阵”来估计这些变化,该“过渡矩阵”将一个初始状态网络映射到一个最终状态网络,以识别对网络结构影响最大的TF,因此可能有助于驱动表型转变。SAMBAR允许用户根据遗传变异如何改变功能途径对生物样本进行分组,最后,YARN是对多组织基因表达数据进行平滑分位数规范化的组织感知实现。
这些方法中的许多都共享一个源自“天下没有免费的午餐定理”的方法论和哲学框架——复杂系统的建模可以通过结合特定领域的知识来改进——因为它们围绕着预先的调控网络进行优化,并施加生物动机的软约束。其中许多方法还使用一组重叠的标准输入数据类型,并提供GRN的互补视图。因此,它们经常一起使用。为了方便它们的使用和集成到分析管道中,Ben等人将它们收集到网络动物园(netZoo;netZoo.github.io,图1),一个协调这些方法的代码库的平台,并提供R, Python, MATLAB和C的实现。在构建netZoo时,作者们还创建了ZooKeeper,一个在线服务器,有助于确保代码库的一致性,因为它会根据用户反馈不断更新。netZoo代码库帮助科学家和方法开发人员开发了一个用于GRN推理和分析的在线资源生态系统,其中包括集成社区贡献的工具,共享用例,以及托管和可视化在线网络。
为了展示这个统一平台的强大功能,作者们使用netZoo方法为Cancer cell Line Encyclopedia (CCLE)中的细胞系构建了一个全面的基因组级GRN集合。还使用PANDA、LIONESS和MONSTER来推断TF基因在黑色素瘤中的靶向性,以探索调控变化如何影响疾病表型,并使用DRAGON来整合9种基因组信息并发现与药物敏感性相关的多组学标记。
图1基于netZoo的GRN推理与分析。YARN使基因表达(RNA-seq)数据标准化,以解释组织之间的差异。然后,第一组方法使用归一化基因表达数据推断基因调控网络(PANDA, PUMA, OTTER, LIONESS, SPIDER, EGRET),使用多种基因组模式重建GRN。PANDA和OTTER的输入数据采用归一化RNA-seq数据构建基因共表达网络,采用STRINGdb等PPI网络构建TF互作网络,采用扫描靶基因启动子区TF位置权重矩阵构建先验知识TF模式网络。将这三种输入网络称为核心输入数据,可以由方法组共享。除了这个核心输入外,SPIDER还使用DNase-seq染色质可及性数据来限制对基因组开放区域的预测。PUMA没有使用TF模式网络,而是使用TargetScan和miRanda等工具的miRNA靶基因预测数据作为miRNA调控网络种子推理的先验知识网络。EGRET利用DNA序列数据首先识别TF结合位点的变异,并将这些突变数据与核心输入数据相结合,计算其对靶基因调控的影响。DRAGON构建了多组学、部分相关的网络,可以使用RNA序列、甲基化状态、蛋白质水平和染色质可及性等数据。第二组(CONDOR, ALPACA, CRANE)识别网络中的社区(CONDOR),发现两个感兴趣网络之间的差异社区结构(ALPACA),并估计模块之间差异的显著性(CRANE)。最后,MONSTER估计两个网络之间的过渡矩阵,表示初始状态和最终状态,SAMBAR使用生物学途径对突变数据进行稀疏化。重叠的方法共享相同的输入数据
netZoo{R,Py,M,C}链接见https://netzoo.github.io/,netZoo的 R代码见https://bioconductor.org/packages/netZooR/,netZoo的 Python代码见netZooPy v0.8.1,Matlab代码见netZooM v0.5.2,C代码见netZooC。
参考文献
[1] Ben Guebila M, Wang T, Lopes-Ramos CM, Fanfani V, Weighill D, Burkholz R, Schlauch D, Paulson JN, Altenbuchinger M, Shutta KH, Sonawane AR, Lim J, Calderer G, van IJzendoorn DGP, Morgan D, Marin A, Chen CY, Song Q, Saha E, DeMeo DL, Padi M, Platig J, Kuijjer ML, Glass K, Quackenbush J. The Network Zoo: a multilingual package for the inference and analysis of gene regulatory networks. Genome Biol. 2023 Mar 9;24(1):45. doi:10.1186/s13059-023-02877-1.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 01:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社