||
PICDGI:通过动态基因互作建模预测癌症驱动基因
癌症是由于多种遗传改变引起的,包括原癌基因(OGs)和抑癌基因(TSGs)的突变。OGs 通过获得性功能突变促进不受控制的细胞生长,而 TSGs 在失去其保护功能时驱动癌变。这些基因共同促进癌症发展(图 1A)。传统上,体细胞突变被分为驱动突变和乘客突变,驱动突变与癌症进展有因果关系,而乘客突变被认为在生物学上无影响。由于体细胞突变的异质性和临床样本中非肿瘤细胞的污染,区分这两类突变仍然是一个重大挑战。有一类癌症驱动基因称之为免疫调节性癌症驱动基因。这些基因通过其固有的致癌或抑癌功能促进肿瘤发生和进展,同时影响肿瘤微环境和免疫细胞调节程序。 这些基因可能与细胞毒性免疫细胞活性调节、细胞因子信号传导、抗原呈递或其他塑造抗肿瘤免疫反应的通路相关。 通过模拟肿瘤和免疫区室之间的动态基因-基因相互作用,PICDGI 方法旨在识别在癌症演化过程中,在恶性和免疫环境中表现出协调调控影响的基因。
许多计算方法依赖于突变复发来预测癌症驱动基因(CDGs),假设频繁突变的基因更有可能是驱动基因。MutSigCV、OncodriveFM、OncodriveFML和 OncodriveCLUST等工具已成功从批量测序数据中识别出反复出现的驱动基因。然而,这些方法通常难以处理罕见驱动基因,这些基因很容易由于采样偏差、测序噪声或肿瘤纯度效应,被错误分类为乘客基因。过度依赖体细胞突变数据会引入偏差,限制发现范围于研究充分的基因,并使功能后果的评估难以在缺乏实验验证的情况下进行。
为了克服这些局限性,研究人员转向了单细胞转录组学。scRNA-seq 提供了对单个细胞的高分辨率分析,揭示了细胞异质性,并使肿瘤进化的精细模型成为可能。在此基础上,RNA 速度、scVelo和 Waddington-OT等时间序列和轨迹推断工具能够预测细胞状态转换和全局种群动态。同时,GRNBoost2、SCODE和 Dyngen等基因调控网络(GRN)重建方法模拟了导致状态变化的相互作用,尽管它们通常依赖于线性假设或肿瘤中无法实现的密集时间采样。类似地,PseudotimeDE等方法可以识别随时间变化的基因,但它们并未直接将动态调控与驱动基因优先级排序联系起来。
基于网络和影响的方法,如 ActiveDriver、DawnRank、DriverNet、PNC和 SCS,整合了先验通路知识来识别有影响的基因。比较评估显示,一些方法如 ActiveDriver 在多种癌症中表现良好,包括 LUAD,但仍然局限于特定的突变类型或预定义的基因集。最近,像 IMI-driver和 CSDGI这样的多组学框架整合了多种数据模式来改进驱动基因的发现,但大多数方法并未明确整合时间基因-基因相互作用动态。总而言之,这些努力突出了进展,但也强调了持续的挑战:对重复突变的偏见、忽视动态肿瘤进化;对已知基因集的依赖;以及验证新候选基因的困难。重要的是,大多数当前方法采用静态的肿瘤观点,忽视了非平稳的基因-基因相互作用如何塑造异质性、治疗抵抗和免疫抑制。
为解决这些局限性,Atitey等人引入 PICDGI(通过基因-基因相互作用预测免疫调控癌驱动基因),这是一个贝叶斯框架,整合单细胞 RNA 测序数据与动态基因相互作用建模,以优先考虑功能相关的癌驱动基因。在方法论上,PICDGI 基于变分贝叶斯推理,结合 MCMC 采样来推断肿瘤进展中的非平稳调控效应。该模型从后验分布中推导出驱动系数,量化每个基因对肿瘤生长和免疫调控过程的逐步影响。在该研究中,使用名为 DEGBOE 的算法对经典驱动基因(如 EGFR、KRAS、TP53)的相互作用进行建模。PICDGI 将这种方法推广为一个四步流程:1) 通过整合肿瘤各阶段的单细胞 RNA 测序数据来识别癌症祖细胞,构建平均时间轮廓(图 1B)。2) 模拟肿瘤进展过程中的动态、非平稳基因-基因相互作用。3) 贝叶斯推理肿瘤进化的调控影响,4) 计算驱动系数,根据动态调控影响优先考虑候选癌驱动基因。

图1 从环境突变到癌症进展中细胞异质性的出现。环境因素如何导致癌症发展的突变示意图。原癌基因(OG)和抑癌基因(TSG)的突变损害了它们的正常保护作用,导致癌细胞的产生。紫外线辐射和吸烟等因素引起的突变可以激活OG(上通路)或TSG的失活(下通路)。这些突变破坏了正常的细胞调节,导致不受控制的细胞增殖和肿瘤形成,进而引起基因表达的广泛变化。(B)单细胞基因表达异质性的概述。从癌症患者不同进展阶段(例如早期、中期和晚期)收集scRNA-seq数据。使用非线性降维方法处理表达矩阵以去噪数据、降低复杂性并提高聚类可解释性,用于细胞类型识别。聚类和注释用于揭示不同的细胞群体,包括免疫细胞、癌细胞和其他细胞类型。对于每个识别的聚类(Cluster A、Cluster B、Cluster C),从三个阶段推导出时间序列基因表达向量,代表癌症进展过程中表达的动态变化
将 PICDGI 应用于来自三名 LUAD 患者的九个 scRNA-seq 数据集。在预测的 Top 30 CDG 中,62%与已知的 OGs 和 TSGs重叠,验证了已建立驱动基因的恢复。其余 38%代表需要进一步验证的新候选基因。在 Monocle 3 中对 Moran’s I 统计量的功能评估显示,PICDGI 优先考虑的基因表现出更强的表达动态性和更高的肿瘤相关表达水平,进一步强化了它们作为高置信度驱动基因的作用。进一步在独立的儿童急性髓系白血病(AML)scRNA-seq 队列中验证了 PICDGI,使用相同的模型设置,它始终能识别出已知的驱动基因和复发相关调控程序,无需任何重新调优。
在本研究中,使用“驱动基因”这一术语时,是指功能层面而非严格基因组层面。PICDGI 不分析 DNA 突变调用,也不试图推断序列层面的突变事件。相反,该框架根据基因在肿瘤进展过程中的动态表达行为,识别表现出类似驱动调控影响的基因。因此,PICDGI 捕捉到功能调控驱动者,这些基因即使在缺乏可检测的体细胞突变的情况下,其时间依赖的转录影响也会促进癌症进展和免疫抑制。接下来的部分将详细阐述方法论框架,并展示其在 LUAD 单细胞数据集上的应用,随后在独立的 AML 队列中进行外部验证。
参考文献
[1] Atitey K, Anchang B (2026) PICDGI: A framework for predicting cancer driver genes through dynamic gene-gene interaction modeling of single-cell data. PLoS Comput Biol 22(4): e1014143. https://doi.org/10.1371/journal.pcbi.1014143
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 02:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社