||
整合基因调控网络与多组学数据可提高癌症生存预测的准确性
癌症是一种由正常细胞功能紊乱引起的复杂且异质性疾病。Hanahan 和 Weinberg 在其开创性论文中描述并阐明了癌症的特征,重点强调了多个分子水平上的异常以及它们之间相互作用的重要性。
新一代测序和其他高通量组学技术的出现,使得多种分子层面的因素得以整合到癌症研究中,加深了我们对不同分子水平上发生的紊乱的理解。诸如癌症基因组图谱(TCGA)或国际癌症基因组联盟等公共数据库,汇集了涵盖多种癌症类型的组学数据。这些数据的出现推动了整合分析方法的发展。
将来自同一样本的组学数据进行整合称为垂直整合,主要有三种方法。后期整合先分别分析每个组学层,然后再识别相关性,但这种方法忽略了分子层之间的相互作用。早期整合则将所有组学层连接成一个单一矩阵。虽然可以捕捉交互作用,但会引入高维度和噪声,这会掩盖有意义的模式,并阻碍模型的可靠性和可解释性。
中间整合通过联合分析多组学数据(通常通过潜在空间重建)而非直接拼接,实现了平衡。这种方法被称为联合降维(JDR),它缓解了早期整合和晚期整合的局限性。目前已涌现出多种 JDR 工具,包括 MOFA+、JIVE、MCIA和 RGCCA。然而,JDR 方法面临的一个关键挑战是处理维度差异巨大的组学层,因为高维数据会对潜在空间产生不成比例的影响,从而导致偏差。
基因调控作为生物过程的核心驱动力,其在癌症发生发展中的作用已得到充分证实。因此,理解基因调控及其在疾病中的紊乱是现代医学分子生物学面临的关键挑战之一。基因调控是一个复杂的过程,包含多层调控和分子相互作用。转录调控是基因调控的一个重要方面,它涉及调控因子与其靶基因之间的相互作用。这些相互作用可以表示为基因调控网络(GRN)。基因调控网络(GRN)的相互作用发生在转录因子(TF)与其靶基因之间。转录因子以序列特异性的方式结合启动子和增强子,从而促进转录调控。目前已开发出多种工具,用于从群体数据和单细胞数据中推断 GRN。
用于批量数据处理的工具之一是 PANDA(Passing Attributes between Networks for Data Assimilation,网络间属性传递数据同化)。PANDA 的核心方法基于以下假设:协同作用的转录因子可能共享靶基因,而共表达的靶基因可能受相似的转录因子集合调控。因此,该方法采用消息传递的方式,在三个网络之间寻找一致性:转录因子蛋白-蛋白相互作用先验网络、基于转录因子序列的先验网络以及基因共表达网络。PANDA 的输出是全基因组、群体水平的“聚合”基因调控网络 (GRN)。然而,在癌症研究中,对个体患者的 GRN 进行建模至关重要。LIONESS(Linear Interpolation to Obtain Network Estimates for Single Samples,线性插值法获取单样本网络估计)可用于基于聚合网络计算样本特异性的 GRN。
鉴于转录调控在癌症中的关键作用,Pop等人旨在评估使用 PANDA 和 LIONESS 推断的单样本基因调控网络 (GRN) 与多组学数据整合后是否具有预后价值(图 1)。为了解决不同组学层级维度差异的问题,Pop等人对一种数据驱动的过滤方法进行了基准测试,并评估了四种线性 JDR 方法。利用来自 TCGA 中十种癌症类型的多组学数据,比较了包含 GRN 的模型和不包含 GRN 的模型,并分析了关键的网络指标。作者们发现,总体而言,GRN 增强了与生存率的关联。以肝癌为例,发现考虑 GRN 显著提高了与生存率的关联。这主要是由于代谢通路和参与免疫信号传导的转录因子 (TF) 的调控增强所致,在一个经过整理的独立肝癌数据集中重复了这些发现,强调了代谢信号传导失调在肝癌预后中的作用。这些结果强调了在多组学分析中纳入 GRN 衍生特征的重要性,以便更好地捕捉其他数据模式可能无法捕捉到的调控机制。
图1 方法概述;使用 JDR 将来自 TCGA 的 10 个多组学癌症数据集与 PANDA/LIONESS 样本特异性 GRN 指标整合在一起
参考文献
[1] Pop RT, Hsieh PH, Belova T, Mathelier A, Kuijjer ML. Gene regulatory network integration with multi-omics data enhances survival predictions in cancer. Brief Bioinform. 2025 Jul 2;26(4):bbaf315. https://doi.org/10.1093/bib/bbaf315
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-17 07:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社