||
IMI-driver:整合多水平基因网络和多组学识别癌症驱动基因
癌症是由破坏细胞增殖和死亡之间平衡的关键基因变化引起的。这些变化会影响调节细胞生长、细胞周期和DNA复制的癌症驱动基因。发现这些基因对于癌症的早期发现、有效治疗和精准治疗至关重要。然而,由于癌症的复杂性以及计算和实验的限制,这是一项具有挑战性的任务。癌症基因组图谱(the Cancer Genome Atlas, TCGA)、国际癌症基因组联盟(International Cancer Genome Consortium, ICGC)等大型癌症基因组项目,已经产生了跨越各种癌症类型的海量基因组数据,旨在揭示癌症成因。确定促进癌症发展的驱动基因是癌症基因组学的一个关键挑战。人们提出了不同的原则来区分驱动基因和偶然积累突变的乘客基因。
其中一个原理涉及基于突变频率的方法,如DriverML和WITER,这些方法假设高频突变是驱动基因的指标。然而,该原理在准确估计背景突变率以及识别低频或非编码突变的驱动基因方面面临挑战。事实上,驱动基因不仅是那些频繁突变的基因,也包括那些在癌症发生和进展中起关键作用的基因,即使它们的突变频率相对较低。另一个原则侧重于功能影响,例如MutPanning和OncodriveFML等方法。机器学习模型已成功应用于预测基因组中的关键调控元件。在这种情况下,这种方法利用机器学习模型来预测基于突变的功能影响的驱动基因。虽然这种方法可以检测到罕见的突变基因,但它依赖于高质量的功能性和非功能性突变数据集,而这些数据集往往很难获得。癌症起源于多种细胞机制的失调,包括基因表达、蛋白质相互作用和表观遗传修饰,它们共同影响癌症的发展。因此,整合多组学数据对于全面识别潜在驱动基因,将其与乘客基因区分开来,为癌症研究提供精确靶点至关重要。第三个原则是考虑基因相互作用的网络分析并解决了前两个原则的一些局限性。网络分析可以识别基于突变频率的方法可能忽略的低频驱动基因,并可以整合多组学数据来阐明癌症发展的复杂机制。
癌症的进展可能是由蛋白质相互作用介导的突变引起的。许多方法基于PPI网络对癌症基因进行优先排序,有些集成了体细胞突变数据(如MaxMIF、MUFFINN、DriverRWH),而其他人则使用多组学数据进行网络表示学习和模型构建(例如EMOGI,MTGCN)。目前的PPI网络仍然不完整且有噪声,这限制了它们捕捉复杂生物关系的能力,并影响了预测的准确性。大多数方法关注于单个PPI网络,忽略了跨不同层的交互。构建一个整合多个网络的模型是全面了解基因相互作用景观的关键。MODIG将异质信息整合成多维基因网络,整合多组学数据。然而,它缺乏肿瘤特异性网络,缺少肿瘤特异性调控信息,并且没有使用甲基化数据、体细胞突变等数据来构建代表各个层面癌症相互作用的综合生物网络。
在这里,Shi等人提出了IMI-Driver(图1,https://github.com/coding0lion/IMI-driver),一个集成了多层次网络和机器学习的新框架来预测癌症驱动基因。IMI-Driver基于多组学数据(基因表达、miRNA表达、DNA甲基化和体细胞突变)构建各种网络,如基因依赖网络(GDN)、竞争内源性RNA (ceRNA)网络、基因共表达网络(GCN)、DNA甲基化相互作用网络(DMIN)和共突变网络(DCMN),以捕捉每种癌症类型的致癌作用的多维相互作用。它还纳入了其他反映常见基因相互作用的网络,如蛋白质-蛋白质相互作用(PPI)网络、基因通路相似网络(GPSN)和转录调控网络(TRN)。然后,应用多视图协同网络嵌入(Multi-view collAborative Network Embedding, MANE)提取不同网络中的基因相互作用对,并将其嵌入到低维向量空间中。此外,IMI-Driver还整合了从每个基因的多组学数据中提取的生物学特征作为特征。最后,利用XGBoost构建基于嵌入向量的预测模型。作者们证明了IMI-Driver在几个基准数据集上优于现有方法,并揭示了一些具有生物学证据的新的驱动基因。
图1 IMI-Driver总体框架。(a)利用多组学数据(5个肿瘤特异性网络)和已知的调控关系(3个常见网络)构建了8个网络。(b)提取8个网络的关系,捕捉基因之间的各种协作。(c)获取每个网络的嵌入。(d)将(c)中的特征与多组学特征相结合。(e)生成的所有特征。(f)使用(e)中的所有特征来训练XGBoost模型
综上所述,IMI-Driver是一种鲁棒且有效的癌症驱动基因识别模型,具有可扩展性,可整合多种生物网络和数据集。此外,作者们提供了一个可扩展的研究框架,该框架基于多组学数据构建多级网络,并表示网络节点进行分类。框架内的技术细节可以调整,可以应用于驱动基因预测以外的其他生物医学领域。在这项研究中,作者们使用了基因表达数据、miRNA表达数据、体细胞突变数据和甲基化数据。其他高通量测序数据,如蛋白质组学数据,也可以纳入IMI-Driver框架。在网络层面,IMI-Driver整合了8个生物网络,包括5个癌症特异性网络和3个普通网络。当然,其他网络(如代谢网络)在实际应用中也可以纳入分析。在多网络嵌入方面,还可以使用其他适合多层图嵌入的方法。对于最终的模型预测,除了驱动基因预测,理论上,任何其他类型的节点类预测,如药物靶标预测,也可以使用IMI-Driver框架。总之,作者们提供了一个可扩展的框架,可用于各种生物医学问题。然而,IMI-Driver有一些局限性。例如,由于网络重构和多层图嵌入计算,需要大量的计算资源。例如,使用5个线程(每个线程2.90GHz)和25 GB内存,IMI-Driver大约需要29个小时。如果需要进一步减少运行时间,建议使用10个线程和50GB内存,这可以将所需的时间减少到22小时。
参考文献
[1] Shi P, Han J, Zhang Y, Li G, Zhou X. IMI-driver: Integrating multi-level gene networks and multi-omics for cancer driver gene identification. PLoS Comput Biol. 2024 Aug 26;20(8):e1012389. doi: 10.1371/journal.pcbi.1012389.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社