||
利用差异因果效应识别失调癌症通路
癌症的复杂性使得找到可靠的诊断和治疗方案成为一项艰巨的任务。几十年的研究提高了我们对这种难治性疾病的认识。然而,由于其高度可变性和环境特异性,仍然存在许多挑战,例如: 关于组织和细胞类型。早期常见癌症类型的患者表现出良好的生存率,尽管罕见亚型由于不同的特征(如更积极的疾病进展)仍然表现出较低的生存率。
据推测,癌症的多样性至少可以部分地用异质突变模式来解释。这些模式在细胞水平上影响生物通路的活性。例如,信号通路由几个基因组成,它们调节某些细胞程序,如生长或凋亡。这些程序是由基因之间的因果相互作用驱动的,例如,一个基因的上调导致另一个基因的上调。因果效应(Causal Effect, CE)决定了这种因果相互作用的强度,例如,通过将基因X的表达增加两倍,其子基因Y的表达增加四倍。因此,X对Y的因果效应为2。了解这些因果网络如何在肿瘤中受到干扰,对于确定药物靶点的优先级、理解患者间异质性和检测驱动突变是必要的。
传统上,通过评估差异表达基因是否比预期更频繁地成为各自通路的成员来检测受干扰的途径。更复杂的方法可以测量属于一条通路的基因是否定位于一组按等级排序的差异表达基因的特定位置。在这种情况下,通路被解释为一组简单的基因,而所有有关基因功能互联性的拓扑信息被忽略。人们已经认识到,基因之间的相互作用对通路富集的计算有重要影响。例如,一些工具考虑基因表达相关性,以解释混杂效应并控制I型错误率,同时保持良好的统计效力。因此,基因相互作用的潜在结构可以从用于富集分析的数据中估计出来,或从现有数据库中获取。然后可以将KEGG等典型途径数据库作为先验知识,以指导使用基因连通性拓扑信息的富集分析。
虽然这种富集方法超越了将通路作为普通基因集处理,并纳入分子相互作用的拓扑信息,但它们通常只报告全局通路失调评分。一个例外是PARADIGM,它记录了给定患者样本中考虑的途径中每个实体的推断活性。然而,它并没有建立因果关系的模型,而只是量化基因之间是否存在某种普遍的联系,比如相关性。 已经在正式环境中研究了生物通路的差异因果效应(Differential causal effects,DCEs),其中DCE被建模为两种条件下相同边的CE之间的差异。这些方法从观测数据中推断出基因网络,这是一项艰巨的任务,因为实际数据通常是小样本量和噪声的结合。不正确的网络可能导致对CE和DCE的有偏估计。此外,这些方法都没有使用估计的DCE来计算通路富集分数。
在这里,Jablonski等人将估计因果网络的问题与CE分离开来,方法是用公共数据库中现成的生物通路形式的先验知识取代前者。他们利用因果效应的一般概念来定义DCE。具体而言,估计正常样本和癌症样本中X基因对Y基因的CE,并将DCE定义为两者的差异。特别是,比较了两种情况之间的因果关系,例如来自肿瘤的恶性组织和健康组织,以检测基因相互作用的差异。提出了差异因果效应(DCE),这是一种基于基因表达数据计算两种给定条件下通路的每条边(即分子相互作用)的DCE新方法(图1)。
图1 生物通路中遗传相互作用的因果网络(a)负责观察到的细胞中野生型表达水平。疾病可导致这些通路的扰动,进而产生表达水平的改变(b)。通路数据库,如KEGG 、PharmGKB和Panther 整理遗传相互作用数据(c),从而提供给定的因果相互作用网络(d)。考虑到观察到的野生型和疾病表达水平以及因果结构,dce对每个边缘拟合一个广义线性模型(GLM),以估计不同的因果效应(e)。使用有效调整集{Z}(由虚线边缘确定)估计X对Y(实边)的差异因果效应。这些不同的因果效应对应于因果扰动,即两个条件之间因果效应的差异。例如,从野生型到突变型的因果效应强度的增加用蓝色标记,而负差异因果效应用红色标记(边缘的透明度对应于相关效应的大小)。这些特征对诊断和治疗设计很重要(f)。
这使我们能够在单个边缘水平上识别路径扰动,同时使用因果关系的统计框架控制混杂因素。通过包括从设计矩阵的主成分构建的额外协变量,作者们还提供了方法的扩展,以处理潜在的未观察到的密集混杂,即混杂变量影响许多(尽管不一定是全部)协变量。例如,来自不同实验室或细胞周期阶段的批效应不一定是已知的,但会自动考虑。dce方法允许计算通路富集,以便在大型通路数据库中对所有网络进行排序,以识别癌症特异性失调通路。通过这种方式,可以检测在肿瘤发生中发挥重要作用的通路,并查明通路中导致其失调和疾病表型的特定相互作用。
模拟结果表明,dce可以恢复显着的DCE,并且优于竞争对手。在对真实数据的验证中,将dce应用于公共CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats)数据集,以恢复网络中的差异效应。在模拟数据和基因型组织表达(GTEx)项目的真实数据上验证了潜在混淆调整的方法扩展。在一项探索性研究中,将dce应用于乳腺癌样本,并比较了不同癌症分期的DCE,并且确定了跨阶段常见的失调边以及特定阶段的边。dce相关代码和文档参考https://bioconductor.org/packages/release/bioc/html/dce.html。
参考文献
[1] Jablonski KP, Pirkl M, Ćevid D, Bühlmann P, Beerenwinkel N. Identifying cancer pathway dysregulations using differential causal effects. Bioinformatics. 2022 Mar 4;38(6):1550-1559. doi: 10.1093/bioinformatics/btab847.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 16:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社