||
spongEffects:ceRNA模块识别
尽管最近在筛查、诊断和预后方面取得了进展,并且对肿瘤发生、进展和维持的机制也有了更多的了解,但到2040年,仅在美国,癌症死亡人数估计将达到每年40万人,这突显了对诊断、监测和治疗的创新方法需求。除了基因组变异和基因表达的传统研究外,鉴于microRNA (miRNA)在生理条件和癌症中调节基因表达的重要作用,它们已被评估为潜在的生物标志物。成熟的miRNA是长度为20-23个核苷酸的短非编码RNA,在调节基因产物丰度中起重要作用。miRNA参与调节人类基因组中至少一半的基因,并在许多疾病中失调。它们通过靶向被降解或翻译受阻的RNA发挥作用。miRNA靶标识别是通过将miRNA 5’端的种子区与靶标3‘端结合位点相匹配(典型靶向)或通过种子外有助于识别靶标的其他区域的作用(非典型靶向)来实现的。Salmena等人提出了竞争性内源性RNA (ceRNA)假说,该假说认为具有miRNA结合位点的RNA会竞争有限的miRNA库,从而产生复杂的基因调控网络。
过去的研究已经确定了作为ceRNA的基因,并将它们与不同RNA类别相关联,如信使RNA (mRNA)、环状RNA、假基因、3’端非翻译区(UTR)的转录本和长链非编码RNA (lncRNAs)。在编码基因中,有效的miRNA靶向(即降低转录物水平)主要发生在3’ 端UTR中。lncRNA最近在ceRNA的框架中受到了特别的关注,这表明这些分子可能在结合miRNA和间接调节共享相同miRNA结合位点区域的蛋白质编码基因的表达中发挥关键作用。值得注意的是,这些模块中的关键参与者不是miRNA,而是通过使用miRNA作为有限资源来影响其他ceRNA表达的ceRNA。
已经开发了一系列计算方法来识别基于不同输入的潜在miRNA-靶标相互作用,例如基因表达数据、蛋白质-蛋白质相互作用网络和序列信息。这种方法通常会产生大量推断的相互作用关系,反过来,表明复杂的ceRNA网络通常难以探索。关键问题是将这些网络分解成可能在特定组织或疾病中发挥作用的功能单元或模块。ceRNA模块的鉴定可以突出miRNA在特定过程中调控的生物学相关性,同时可能为临床应用确定新的预后生物标志物和治疗靶点。
虽然存在推断ceRNA网络的工具,但识别具有生物学或临床相关性的功能模块并不简单。此外,迄今为止提出的所有ceRNA模块识别方法都无法以患者或样本特定的方式总结模块的信息内容。ceRNA调控活性的样本特异性测量将有助于解释其生物学功能,并使其可用于下游分析任务,如聚类和分类。推断个性化ceRNA网络的方法适用于识别偏离规范的个体相互作用(边缘),但不能捕获网络中ceRNA(节点)的整体活动。
在这里,介绍一种新方法spongEffects(https://bioconductor.org/packages/SPONGE/),它可以(i)从先前推断的ceRNA网络中提取ceRNA模块,(ii)使用富集分数作为模块活性的替代品来评估它们的调节活性。这些海绵效应分数(模块的富集分数)是在单个患者或样本水平上计算的,因此可以跨样本或患者组研究ceRNA效应,甚至可以进行个性化分析。
给定基因表达数据和预先计算的ceRNA网络,spongEffects执行几个步骤(图1):(i)过滤具有有意义效应大小的重要相互作用,并通过网络中心性分析识别最重要的ceRNA;(ii)对于中心性值最高的节点子集,通过引入一级ceRNA网络邻居构建ceRNA模块;(iii)利用识别的节点进行单样本基因集富集,从而获得spongEffects分数;(iv)它使用spongEffects分数来执行下游机器学习任务,以进行分类和生物标志物识别。
图1 spongEffects的工作流程。spongEffects接受基因表达矩阵和ceRNA网络作为输入。随后,它(a)过滤网络并计算加权中心性分数以识别重要节点,(b)识别第一个邻居,(c)运行单样本基因集富集,(d)为进一步的下游任务(例如基于机器学习的分类和机械生物标志物的提取)准备输出。
作者们将spongEffects应用于两种基于偏相关方法和正相关以及一种条件互信息方法推断的ceRNA网络,并研究了这些模块在不同数据集上的鲁棒性。使用来自两个独立乳腺癌队列的数据来测试海绵效应的富集方法对缺失值和不同技术(例如RNA-seq和微阵列)的稳健性。进一步研究了ceRNA模块在ceRNA网络中或与测试数据(第二个独立队列)交换训练(即用于ceRNA网络推理和训练分类器的队列)时的一致性。结果发现:海绵效应评分可以很准确地用于乳腺癌亚型的分类。最后,也证明了非编码RNA在分类上优于编码RNA。重要的是,一旦推断出ceRNA网络,海绵效应评分就可以单独从基因表达数据中计算出来,即使在缺乏很少可用的miRNA表达谱情况下。通过提供miRNA调控景观的系统生物学观点,spongEffects评分适合于揭示癌症生物学中重要的ceRNA和miRNA,并对长链非编码RNA的作用产生新的假设。
需要注意的是,计算模块的富集分数,除了spongEffects方法,也可以参考LMSM方法(参见文献[2])。
参考文献
[1] Boniolo F, Hoffmann M, Roggendorf N, Tercan B, Baumbach J, Castro MAA, Robertson AG, Saur D, List M. spongEffects: ceRNA modules offer patient-specific insights into the miRNA regulatory landscape. Bioinformatics. 2023 May 4;39(5):btad276. doi: 10.1093/bioinformatics/btad276.
[2] Zhang J, Xu T, Liu L, Zhang W, Zhao C, Li S, Li J, Rao N, Le TD. LMSM: A modular approach for identifying lncRNA related miRNA sponge modules in breast cancer. PLoS Comput Biol. 2020 Apr 23;16(4):e1007851. doi: 10.1371/journal.pcbi.1007851.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 19:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社