||
MNDGNN:有向图神经网络用于癌症驱动基因识别
癌症是一类以体细胞不受控制增殖为特征的疾病。它源于人类基因组中的驱动突变,这些突变赋予受影响细胞选择性生长优势,从而促进肿瘤发生。携带此类突变的基因称为癌症驱动基因(CDG)。由于癌症驱动基因处于正向选择状态,并干扰关键细胞功能,识别这些基因有助于癌症诊断和靶向治疗,并在精准肿瘤学中发挥关键作用。
近年来,识别癌症驱动基因的计算方法有所增加。这种增长依赖于来自 TCGA 和生物网络等数据库的丰富多组学资源,这些网络模拟了复杂的分子相互作用。与此同时,深度学习发展迅速。图神经网络(GNN)展现出从网络中捕获拓扑信息的强大能力,使其在该领域被广泛应用。EMOGI是一种基于图卷积网络(GCN)的可解释方法,通过整合多组学数据和蛋白质-蛋白质相互作用(PPI)网络,用于识别癌症驱动基因。MTGCN基于 ChebNet变体引入了多任务学习图卷积网络,通过联合优化节点分类和链接预测任务,增强了癌症驱动基因的识别能力。ECD-CDGI主要采用基于能量约束扩散和注意力机制的编码器,有效捕捉复杂的基因依赖关系。在 deepCDG中,一个带有注意力层的共享参数 GCN 编码器支持交叉组学整合,以提升癌症驱动基因的识别。DGMP通过集成有向图卷积网络和多层感知器,预测癌症驱动基因,从基因调控网络和多组学数据中学习基因特征。
然而,大多数现有方法仅限于分析单个网络,仅捕捉一种类型的交互。这不仅忽视了基因在不同生物调控过程中的多面功能,还可能导致网络特异性噪声的过度代表。近年来,已有多个集成多重网络的模型被提出以识别癌症驱动基因。MRNGCN利用三个基因关系网络,提出了一种将异质图卷积网络与自关注机制整合的识别方法。MMGN通过图神经网络整合多工网络和多组学数据,采用负样本推断以识别癌症驱动基因。MRNGCN 和 MMGN 都表示基因调控过程和信号通路为无向网络。然而,由于这些过程本质上具有定向性,这种表示方式可能导致调控逻辑的丧失和预测准确性降低。
虽然一些研究,如 DGMP,采用有向图卷积网络来建模基因调控网络,但这些方法通常采用均匀的层级方向权重。这使得进发消息的重要性相等,忽略了局部结构的差异。此外,度数信息通常被简化为一个简单的归一化因子。因此,这些方法未能考虑节点层面上方向邻居重要性的差异,也忽视了入度和出度带来的结构性洞见。这最终限制了模型捕捉细粒度方向加权动态的能力。
关于训练数据,尽管像癌症基因网络(NCG)等资源提供了已知的癌症驱动基因,但其数量相较于未标记基因数量相对较少。此外,目前尚无可靠的非癌驱动基因(NCDG)数据集。这种标签不平衡对模型训练和验证构成挑战,可能影响分类性能。
为应对这些挑战,Li等人提出了 MNDGNN 模型(图1,https://github.com/PTINDEX/MNDGNN)用于癌症驱动基因鉴定。该方法利用多个网络捕捉多种分子相互作用,并减少与单一网络相关的噪声。此外,它采用了结合邻居多样性和度数多样性的有向图神经网络,实现了方向信息的细粒度建模。这增强了节点的可辨性,并允许更全面地利用多生物网络的信息。为缓解已知癌症驱动基因有限且缺乏确认非癌驱动基因导致的标签失衡,引入了结合正样本增强与负样本推断的数据增强策略。实验结果表明,MNDGNN 在泛癌数据集上的 AUROC、AUPRC 和 F1 评分方面优于其他先进方法。它不仅识别已知的癌症驱动基因,还揭示潜在的癌症驱动基因和候选治疗靶点。

图1 MNDGNN 的架构概述。(a) 数据预处理与特征提取:六个生物网络和多组学数据会被预处理,随后输入第一个 MDGCN,以学习基因表达。(b) 方向编码过程:每个卷积层为 MDGNCN 中的节点更新编码方向信息。(c) 数据增强:该模型使用低信息熵和基于 RBF 的谱聚类构建伪标记集,然后应用 ICL 模型识别高置信度的非癌症驱动基因。(d) 癌症驱动基因的预测:MNDGNN 基于增强后的基因表征进行训练,最终应用线性分类器来预测癌症驱动基因
参考文献
[1] Li P, Xie M (2026) Multiplex networks- based directed graph neural network for cancer driver gene identification. PLoS Comput Biol 22(5): e1014275. https://doi.org/10.1371/journal.pcbi.1014275
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-27 23:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社