||
NetRank:基于网络的生物标志物发现方法
在肿瘤学领域,基因表达是疾病进展及其结果预测的有力指标。几十年来,微阵列和RNA测序已被广泛用于通过量化癌症患者RNA数据中基因的表达水平与健康个体的平均水平相比,以生物标志物特征的形式来研究概况。为此,引入了几种经典的统计方法,如DESeq2、edgeR和limma。值得信赖的生物标志物标签应该是可解释的,紧凑的,对数据变化具有鲁棒性,既不过度拟合也不偏向原始数据。然而,由于疾病的复杂性和所分析数据的高维性,在试图提供预测疾病结果和进展的因果和可解释模型时出现了困难。也许经典方法的主要局限性在于它们独立地评估生物标志物,而不考虑其功能和统计依赖性。这就需要使用补充技术来解决和处理这些困难,例如网络分析。
除了与表型的统计相关性之外,网络科学还为探索评估生物标志物重要性的其他方面(如分子和功能相互作用)提供了有用的解释。此前,研究者开发了一个随机冲浪模型,将蛋白质相互作用与表达和表型信息结合起来,根据生物标志物预测癌症进展的有效性对其进行排名。受十种癌症特征概念的启发,我们的目标是通过关注癌症类型之间的共同特征而忽略差异,探索定义通用癌症生物标志物特征的可能性。这项工作的结果是发现了50个基因的生物标志物特征,这些基因在预测癌症结局方面具有可解释性和稳定性,无论癌症类型如何,不同数据集的曲线下面积在80%到90%之间。然而,这种特征不能被推断为区分不同的癌症表型或特征,因为它只关注共同的机制和功能。
最近,Al-Fatlawi进一步扩展NetRank的实现和应用,以区分不同的癌症表型,并为该算法提供一个功能完整的开源R实现,包括RNA-seq基因表达数据的预处理和后处理,见图1。作者们通过区分3388名患者的19种癌症类型来评估算法(数据来自癌症基因组图谱(TCGA) https://portal.gdc.cancer.gov/)。
图1 用于解释已实现管道中的主要过程的流程图
NetRank是一个随机的冲浪者生物标记排名模型,灵感来自谷歌的PageRank算法。NetRank将蛋白质连通性(如共表达、信号通路、生物学功能、共定位、融合、共发生)与其统计表型相关性结合起来。它倾向于与表型密切相关并与其他重要蛋白相连的蛋白质。所提供的实现允许使用“bigstatsr”、“foreach”和“doparallel”包利用共享内存对任意数量的内核进行并行处理,见图2。
图2 实现管道的并行处理机制
NetRank的R代码参见:https://github.com/Alfatlawi/Omics-NetRank。
参考文献
[1] Al-Fatlawi A, Rusadze E, Shmelkin A, Malekian N, Ozen C, Pilarsky C, Schroeder M. Netrank: network-based approach for biomarker discovery. BMC Bioinformatics. 2023 Jul 29;24(1):304. doi: 10.1186/s12859-023-05418-6.
以往推荐如下:
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 19:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社