周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

打破RNA二级结构预测精度的天花板 精选

已有 4636 次阅读 2019-11-28 13:37 |个人分类:科技推广|系统分类:论文交流

在生命体系里,RNA长期以来被认为是蛋白质的小弟,因为除了转运RNA(tRNA),核糖体RNA(rRNA),把信使RNA(mRNA)按照DNA指定合成特定的蛋白质之外,以后就没有RNA的什么事了。只有各种蛋白质,才是忙上忙下,包揽一切的万能手。但是,近年来越来越多的实验表明RNA似乎无处不在、无所不能,有用于RNA修饰的(例如snRNA,snoRNA),DNA复制的(例如Y-RNA),催化作用的(例如RNase P),RNA剪接(例如SmY-RNA) ,表达调控的(miRNA, piRNA, siRNA, lncRNA, riboSwitch等)等等,还有许多不知道有什么用的环状RNA(circRNA)。事实上,编码用的mRNA才占1.5%,而非编码RNA则占据了人类基因组的75%。但是,不像蛋白质,我们对绝大多数的非编码RNA了解甚少,主要原因是缺乏结构信息,因为结构决定功能,不知道结构,我们就没有线索(图一)。


1杯子的结构决定了杯子的功能(盛水)【a picture from zazzle.com】


RNA的三维结构往往是在先形成的二级结构的框架上折叠而成的(图二),所以知道二级结构就能够用来表征RNA结构、推断功能机制、并设计新实验。二级结构是指RNA序列各个位置有氢健互补配对的碱基(例如第i个碱基与第j个碱基(i:j)有氢健相连),而邻近不间断多个配对碱基的堆积(i:j ,i-1:j+1,i-2:j+2等)所形成的螺旋长茎区是二级结构稳定的关键。二级结构的二维描述是螺旋茎区加无碱基配对的各种环状结构(Hairpin Loop发夹环; Multiple Loop多环;Internal Loop内环;Bulge Loop凸环)(图二),它也可以通过一维的碱基连接图来显示。



图2. 人工设计的四环RNA受体(PDB 6dvk)的三维结构是通过RNA主链在先形成的二级结构的环二、环四的转弯折叠而成的。SPOT-RNA非常准确的预测了它的二级结构,但没有能够预测假结这个决定三级结构的关键配对。

虽然二级结构是关于碱基的配对,但碱基的配对不仅仅有二级结构的信息。RNA序列通常是由四个碱基(A,C,G,U)的排列组合所组成。在两个碱基配对里,AU和GC配对最稳定、被称为Watson-Crick配对,GU是次稳定的配对(Wobble base pair)。 其它碱基之间也能配对,它们被称为非规范碱基对,往往需要靠三维结构才能稳定下来。需要三维结构来稳定的还有孤碱基对(没有多个配对碱基的堆积)以及各种假结结构(例如,一个茎环结构的茎的一半插入了另一个茎环结构的茎结构,相吻发卡(kissing hairpin),发卡-突环接触等,图二)。所以,完整的RNA碱基配对信息只有通过昂贵而且费时的三维结构测定才能精确获得。由于目前只有少量RNA(<5000)的结构被测定,只用序列就能快速预测RNA二级结构成为每个RNA生物学家的必备工具,二级结构预测的广泛使用可以从MFOLD方法自2003年以来已经引用11,000次以上可以看出。

 

但是,最近十多年来,二级结构预测的精度一直在同一个水平上徘徊不前(50%的覆盖率,75-83%的精确度)。这主要是下列原因:1)目前几乎所有的方法是基于折叠的算法,需要一个能量函数来寻找最低自由能的状态,但目前的能量函数过于简单,无法描述复杂的RNA相互作用,2)大多数二级结构预测只关心长螺旋茎区的规范碱基对(AU,GC,和GU),而不考虑孤碱基对和非规范碱基对,这无疑会对寻找最低自由能带来不利的影响,3)没有什么好的方法来获得假结,因为假结对环境非常敏感。

 

和RNA二级结构预测对应的是蛋白质氨基酸残基间的接触图预测(contact map prediction)。最近几年来,通过深度学习,蛋白质二级结构和接触图预测的精确度有了极大的改善,是最近几届蛋白质结构预测比赛(CASP)改进明显的根本原因,我们也发展了SPOT-1D, SPOT-Contact的蛋白质二级结构和接触图预测方法(Bioinformatics,35: 2403–2410,2019),其中SPOT-1D的蛋白质三态二级结构的预测精度可达86%。但深度学习还没有用于RNA二级结构预测,一方面是RNA的结构预测难,关注少,更重要的是已经被测定的有高清晰度的三维结构但序列又不相似的RNA 在整个PDB数据库里也就200左右,用机器学习来深度学习是不够用的。

 

为了充分利用最新的深度学习技术,我们决定使用通过人工同源比对的、虽然精确度不是100%但有大量数据的bpRNA二级结构库来进行初步训练,然后再用三维结构库进行迁移学习来进一步改进预测的精确度。我们发现使用单序列信息,这个SPOT-RNA方法用69个高清晰度RNA独立测试集、在50%覆盖率下、可以获得93%精确度。特别是,该方法在假结、孤碱基对、和非规范碱基对(需要三维结构稳定的碱基对)的改进更大。这个结果表明,用折叠来预测RNA二级结构的精确度的天花板可以用折叠以外的方法(深度学习+迁移学习)来打破。

 

该工作发表在Nature Communications (https://www.nature.com/articles/s41467-019-13395-9). SPOT-RNA可以通过网上服务器或者下载(http://sparks-lab.org/jaswinder/server/SPOT-RNA/ )。



http://blog.sciencenet.cn/blog-472757-1207925.html

上一篇:门前的那只鸟儿
下一篇:从深度诱变的测序来推测RNA/蛋白质的三维结构

3 张叔勇 巩卫康 吴晓敏

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-11-29 02:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部