||
两期公众号已经系统介绍了RNA m6A的发生、调控、序列、区域和功能方面的特征,给读者的感觉是,RNA m6A已有的特征鲜明,在序列、调控过程已经形成了一定的共识,包括motif DRACH、明显富集于终止密码子区,对RNA的稳定性和翻译效率有明确的影响;但是RNA m6A的功能是多变的,这种“content-dependent”的变化会依赖于不同细胞环境、亚细胞定位、应答状态、结合蛋白会有所不同,这才有了我们在上一期公众号中对于RNA m6A故事多面性的相关讨论,同样的调控机理无法在另一个细胞环境中被生搬硬套,虽然RNA m6A修饰是表观转录组学中被研究最深入的分支,但相关研究和机制讨论远没有终止,有非常多的问题还没有被解决。
高通量筛选和生物信息学分析作为常规方法,已经在RNA m6A相关研究中广泛使用,主要用于广泛筛选m6A修饰靶点,建立多组学相关性并为下游机制提供线索和方向。经常有研究者思考,自己感兴趣的分子是否会发生m6A修饰?之前有关表型解释的非常清楚的分子,有没有可能受到m6A调控?接下来就给大家整合一些好用的、常用的在线工具网站,可以用来预测或者检索感兴趣序列或者分子的相关m6A修饰信息。目前已经发表的工具超过20种,部份工具提供了基于网页的工作界面,用于可以通过上传感兴趣的序列、基因名称等信息进行预测或者检索,当然这些工具由于后期的维护原因,会出现不能访问的情况,不过多一个工具,多一种选择。
我们结合以往经验,给大家推荐其中几款相对简单好用的工具,但是基于之前的反馈和经验,用户容易忽视几个重要问题导致预测不成功,或者结果使用出错,在文末为大家总结使用在线工具预测或检索m6A位点信息的常见注意事项。
一.RNA m6A位点基于给定序列进行预测?
1)SRAMP(A sequence-based N6-methyladenosine (m6A) modification site predictor)
图1:SRAMP预测界面
(http://www.cuilab.cn/sramp)
SRAMP网页操作简单,对用户十分友好,能够快速的实现基于用户提供的序列进行预测。当用户提供的序列中包含基因序列(带有内含子的转录本序列)时,优先选择“Full transcript mode”模式,使用cDNA序列时,优先选择“Mature mRNA mode”模式;同时该工具提供“是否分析RNA二级结构”的选项,RNA的二级结构对RNA分子的功能也会产生影响,因此对高级结构的计算虽然相对耗时,但能提供更多有关修饰位点序列局部特征提供更多有效信息;Generic还是tissue-specific预测?通常选择Generic(通用)预测即可,如果效果不好,可以更换其他模式尝试,目前网站只支持一次性预测一条序列,用于可以下载工具至并执行相关预测任务。
图2:SRAMP位点预测结果界面
(http://www.cuilab.cn/sramp)
SRAMP的结果呈现也是一目了然,清晰易懂,图中的横坐标代表碱基的位置,纵坐标是打分,对应预测位点处的竖线高低代表了该位点的可信度高低,对应有红色、紫色、蓝色和绿色四条水平线代表不同的置信度,对应99%、95%、90%、85%(也就是5%、10%、15%假阳性率),SRAMP对预测得到的m6A位点分为Very High、High、Moderate、Low四个等级,因此用户可以优先选择置信度高的位点,逐个对可信位点进行信息检索,或者可以针对感兴趣的位点设计引物,使用MeRIP-qPCR进行实验验证。
2)iRNA-m6A:基于SVM(支持向量机)算法的RNA m6A位点预测工具
图3:iRNA-m6A序列提交界面(左)和结果形式(右)
(http://lin-group.cn/server/iRNA-m6A/service.html)
iRNA-m6A是基于SVM算法建立的m6A/non-m6A分类器,该分类器的建立过程使用m6A-REF-seq单碱基分辨的m6A数据集,正样本是长度为41nt的以m6A为中心的片段,负样本使用长度为41nt的non-m6A为中心的片段,样品来源是人、小鼠、大鼠的脑、肝、肾多组织,预测考虑到了特异性,在页面中也提供了相应的选项,用户可以进行相应的选择。SVM是计算生物学当中最常用的方法,而iRNA-m6A是众多基于SVM算法建立的分类模型的其中之一。
3)HSM6AP:基于特征拼接(feature stitching)的m6A 预测方法
图4:HSM6AP网页预测界面
(http://120.27.24.199:10501/HSM6AP/WebServer)
HSM6AP同样提供了相对简洁明了的网页工作界面,用户直接上传相关序列就可完成相应的预测,相比于其他工作中,HSM6AP在建立预测模型的时候同时考虑了序列特征、碱基的物理化学特征以及RNA m6A Writer、Eraser、Reader的结合信息,将三方面的信息拼接为特征向量,一同使用Xgboost方法建立预测模型,从而对新的序列进行预测。网站提供的预测只能针对用户提供的序列,如果需要进行全转录组范围内的预测或者成熟mRNA范围内的预测,需要联系开发人员获得相应的模型,还需要注意的是模型只能对人源性的序列进行预测,不适用于其他物种。
二.RNA m6A位点如何根据基因、功能信息进行检索?
1)WHISTLE:根据基因、功能检索m6A相关修饰的网页工具
图5:WHISTLE网页检索界面
(http://180.208.58.19/whistle/index.html)
相比于SRAMP,iRNA-m6A,WHISTLE的操作界面更加美观,操作同样十分方便,更重要的是,网页提供通过基因、功能进行搜索的检索方式,对于很多生物学过程,如细胞凋亡、细胞增殖、细胞分化等,可以按照单个基因或者基因集和进行搜索,这样能给对特定生物过程感兴趣的研究者提供更全面的信息,对于每个基因的查询结果,也给出了所在位置的绝对坐标(chr+起始位置+终止位置)以及该对应基因的BP、CC、MF等注释信息,整体给用户的感觉是更加清爽,内容显示更加规整,操作简单容易上手。
该工具的开发过程中,使用了5UTR、3UTR、起始密码子、终止密码子、转录起始位点、外显子长度、持家基因等35个特征值进行建模,使用了10项研究中的数据作为训练、开发、测试整个过程,针对m6A-CLIP和miCLIP数据采用SVM框架进行机器学习建模。
2) RMBase:
图6:RMBase主页
(https://rna.sysu.edu.cn/rmbase/index.php)
RMBase是表观研究领域最有影响力的数据库之一,为很多研究的分子信息提供了方便快捷的检索途径,其中不仅提供了有关多种修饰(m6A、m1A、m5C等),还提供了多物种(大鼠、小鼠、猪等)相关信息,纳入的数据包含MeRIP-seq、miCLIP、CLIP等高通量数据类型,用户不仅可以通过网页进行搜索,还可以通过“Download”进行下载,通过编写脚本进行筛选。让RMBase更加全面的还有完善的位点信息,例如针对m6A-site-420457,该位点的坐标信息、数据来源(GSM2010450)、所处序列特征(protein-coding、intron等)和相关研究文献(PubMed ID)。通过这些信息,有数据分析基础的研究者可以下载相应的数据,进行比对、可视化,可以直观的对富集信息,即m6A所在的位置进行可视化,将最终结果保存并展示,这样的图形展示远比生硬的描述m6A位置信息要有效的多。
图7:RMBase针对位点收集的相关信息(左侧)并对下载的数据分析可以获得右测的图例
其中motif score代表该位点处的序列与motif的相似程度(0~500)
3)m6A Atlas、m6A var 等
图8:m6A Atlas收录信息
m6A Atlas是一个围绕表观研究构建的多物种综合性数据库,提供了有关RNA修饰的多重信息,从图8种我们可以看到,该数据库收录了多物种和多种修饰的相关信息,另外还有像m6Avar数据库,将m6A位点和临近的基因组变异位点联合,能够实现Genomic Variants 和m6A modification的联合分析。
有关于上述所有的工具,为m6A的相关研究提供了极大的便利,同时也削减了成本,通过数据搜索,对感兴趣的基因或者序列甲基化修饰情况进行快速判断,但是在预测和信息检索时,需要注意以下问题。
(1)首先搞清楚自己的目的,是为了针对某段感兴趣的序列、基因、转录本进行预测?还是有目的的查询现有信息?有目标的选择相应的工具,才能有效的解决问题。
(2)如果是要根据序列预测,往往网站工具需要的是.fa格式的文件,如果格式不对,往往导致预测错误或者网站报错,那到底什么是.fa文件,其实很简单,fa文件的本质是txt文件,这种格式经常用来存储序列信息,通常内容符合图9的格式,确保自己的格式正确,且ID描述正确对应自己感兴趣的序列,才能不会再之后的研究中产生错误。
图9:.fa文件内容格式
(3)物种,目前在线工具有很多,基于序列的预测尽量选择支持相应物种的工具进行。
(4)有关数据库的检索,查询到某个位点的绝对坐标,应该注意相应数据库的基因组版本支持,例如人的基因组版本,部份数据库支持hg38,部份数据库支持hg19,用户在使用自己的数据,尤其是联合自己测序数据和其他分析数据的时候一定要注意基因组版本的匹配问题。
(5)网页数据加载不出来?通常由于网站的后期维护问题,导致很多在线工具无法加载,数据无法搜索,这种情况时有发生,如果自己的研究问题和网站的建设内容完全契合,可以考虑邮件咨询开发者寻求帮助,或者选择其他工具进行分析或反复重试,同时在可使用的网站中及时下载相关内容为本地excel格式进行备份,这样每次查询就可以通过查询表格进行,无需再接入网络。
合理的运用现成的工具可以为科研加速,在之后的公众号中,我们还会继续结合相应的科学问题为大家陆续推荐相关好用的在线工具,希望大家继续关注。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 06:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社