||
TargetRNA3:用机器学习预测原核RNA调控靶标
小调控RNA (Small regulatory RNA, sRNA)广泛存在于原核生物中。例如,在大肠杆菌和肠炎沙门氏菌血清型鼠伤寒杆菌中,已经鉴定了数百个sRNA,与转录因子的数量相当。绝大多数sRNA通过与靶mRNA的碱基配对作为转录后调控因子,从而调节靶标的翻译或稳定性。sRNA基因的产物通常与多个mRNA相互作用,使sRNA能够影响广泛的细胞反应。总的来说,基因组中超过一半的基因可能受到sRNA介导的调控。
虽然sRNA是调控景观的重要组成部分,但它们的注释可能具有挑战性,部分原因是它们在大小、功能和保守程度上的多样性。例如,在某些生物体中,sRNA的作用严重依赖于sRNA结合蛋白,如Hfq、ProQ和CsrA,而在其他生物体中,sRNA结合蛋白是否发挥重要作用尚不清楚。在原核生物中,sRNA及其调控靶点在细菌中的表征要比在古细菌中广泛得多。近年来,由于RNA-seq策略的进步,原核生物中已鉴定的sRNA数量激增,其挑战仍然是有效阐明其功能角色和调控靶标。
为了帮助解决这一挑战,已经开发了许多用于大规模靶标识别的实验方法。MAPS (MS2亲和纯化耦合RNA测序)将MS2标签融合到sRNA上,然后进行纯化和测序以确定sRNA的靶标。RIL-seq (RNA相互作用通过连接和测序)通过与Hfq共免疫沉淀,然后连接和测序来检测sRNA:靶双链。与RIL-seq类似,GRIL-seq (global small noncoding RNA target identification by liga and sequencing)通过连接和测序来识别sRNA:靶标相互作用,不需要RNA结合蛋白来捕获相互作用。同样,CLASH (UV-交联、连接和杂交体测序)使用交联、连接和测序来捕获sRNA:靶标相互作用。所有这些方法都可以在体内应用于全局识别sRNA靶标相互作用。总的来说,虽然这些高通量实验方法可以应用于全基因组,并且它们大大增加了验证的sRNA:靶标相互作用的数量,但它们不能随着整个原核生物中鉴定的sRNA数量的爆炸式增长而扩展。因此,计算方法比实验方法更有效,可以成为帮助描述原核生物中反式作用调控RNA靶标的有用的第一步。
有许多现有的计算工具可以预测生命不同领域中的RNA-RNA相互作用,特别是在原核生物中。为了预测sRNA在整个原核生物基因组中的调控靶标,TargetRNA是第一个这样的工具,它利用sRNA与靶标之间的杂交能量以及连续碱基对的种子区来识别调控相互作用。RNAup通过结合它们的杂化能和结合区域的结构可及性来决定sRNA和靶标相互作用的热力学。IntaRNA改进了RNAup方法的执行时间,并将种子区域纳入其预测计算中,是估计sRNA与靶标杂交的相互作用区域和相应核苷酸的较精确工具之一。CopraRNA是一种领先的工具,严格结合sRNA的保守性:跨物种的mRNA相互作用来确定其预测。sTarPicker和sRNARFTarget都采用机器学习方法进行预测,其中sTarPicker使用基于Tclass系统的集成分类器,sRNARFTarget使用随机森林作为其机器学习基础。SPOT使用集成方法,结合上述几种工具来增强预测性能。这些工具各有利弊。例如,CopraRNA是识别交互的最准确的工具之一。然而,它只能对高度保守的sRNA和靶标进行预测,而且对于大量的sRNA来说,它的运行速度非常慢。总的来说,现有的工具面临着许多相同的挑战。一般来说,这些工具只考虑预测sRNA的几个特征:靶标相互作用,通常侧重于两个RNA之间杂交的热力学,并且都有很高的假阳性率。此外,现有的方法是基于相对较小的sRNA和相互作用集设计和评估的,因此它们在少数模式生物之外的有效性尚未得到很好的理解。
在这项研究中,Tjaden收集了大量实验确定的sRNA:靶标相互作用,远远大于用于构建和评估先前预测sRNA靶标工具的集合。然后,研究了各种可能预测相互作用的特征。利用这组关于sRNA及其靶标的丰富数据,训练了一个机器学习模型来区分相互作用和非相互作用。作者发现,TargetRNA3比现有的方法更准确地识别sRNA作用的靶标。在与其他工具相比,TargetRNA3识别出的真实靶标明显更多。相应地,在与其他工具识别相同数量的靶标时,TargetRNA3的假阳性率明显更低。TargetRNA3可以应用于所有的sRNA,不管它们是否保守,而且它比其他领先的工具要快得多。TargetRNA3(图1)可以通过https://cs.wellesley.edu/~btjaden/TargetRNA3界面访问。
图1 TargetRNA3界面
参考文献
[1] Tjaden B. TargetRNA3: predicting prokaryotic RNA regulatory targets with machine learning. Genome Biol. 2023 Dec 1;24(1):276. doi: 10.1186/s13059-023-03117-2.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 11:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社