周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

AI的光辉还没有照亮RNA结构预测:CASP 15比赛结果详解 精选

已有 8572 次阅读 2022-12-12 19:50 |个人分类:科技推广|系统分类:科研笔记

导读RNA结构预测可能比蛋白质结构预测更重要,因为核酸药物、靶向RNA小分子药物的开发都需要RNA结构预测;对于基础研究来说就更重要了,如果没有结构的信息来引导,我们对人体内的绝大多数非编码RNA都一无所知。今年暑假,CASP 15第一次对RNA结构预测进行了比赛,比赛结果在今天12月12日土耳其的会议中宣布。结果表明:跟蛋白质不一样,在预测RNA结构时,传统的、基于能量函数的方法要远胜过基于深度学习的方法!这个胜利是智峪生科公司熊鹏博士带领的团队利用在我们组开发的RNA-BRiQ能量函数实现的,这是RNA结构预测上的一个巨大进展,可喜可贺!

 







在蛋白质结构比赛CASP14中,AlphaFold2出乎意料地对蛋白质的结构进行了高精度的预测。这个蛋白质结构预测问题的大幅度进展,使得CASP比赛的组织者决定把蛋白质-蛋白质复合物结构预测(原来CAPRI比赛的内容),以及RNA结构预测(原来RNA puzzles比赛的内容)加入到CASP15比赛中。由于新的、即将解析的RNA结构太少、并且间断性的,以前RNA puzzles是有一个RNA就让大家预测一个。这次CASP15一下子放出来12RNA序列,充分体现了CASP组织者的能力和AlphaFold2CASP带来的品牌效应。不过,这一打的RNA序列和有100多个蛋白结构域的预测比赛相比,还是差得很远。

 

正如上一篇文章我对CASP15蛋白质结构预测结果分析所显示:在方法上,没有大的发展,还是CASP14AlphaFold2在起着主要作用,因为最好的几个方法或者利用AlphaFold2预测的结构作为他们方法的一部分,或者对AlphaFold2同源序列的输入进行了优化。但是,这次CASP15RNA结构预测的结果却给大家带来了新的惊喜。智峪生科公司熊鹏带领的团队,作为RNA三维结构预测的新手,一举超越多个在这个领域耕耘多年的专家,成为第一人,这是一件很了不起,非常不容易的事情。

 



图 1 RNA结构预测方法的排名(Rhiju Das, CASP 15会议报告)

值得注意的是,被邀请在1212CASP 15总结会议上做报告的前四名(Peng Xiong, Shi-Jie Chen, Marta Szachniuk, 以及 Janusz Bujnicki )都是基于能量函数的传统方法。其中熊鹏主导的Alchemy RNA2是基于他在我们组工作时开发的RNA-BRiQ 统计势函数【1】。Chen密苏里大学陈世杰组)是基于他们组开发的Vfold3DIsRNARNAJP三个方法的综合。RNApolis 是基于RNAcomposer GeneSilico是基于SimRNA

熊鹏博士这次为什么能够一举超越多个经典方法,实现“屌丝”逆袭?他的方法对12结构的预测有4个小于6Å RMSD,而其它方法只有1个。这次他能大幅度领先其他方法,跟他不久前所建立的一个全新的能量函数RNA-BRiQ密切相关【参见我以前的一个博客,https://blog.sciencenet.cn/blog-472757-1287221.html】。RNA-BRiQ相互作用不再由简单的距离和角度来表示,而是考虑了在三维结构上的云分布,这个全方位的能量函数在RNA结构预测上特别重要,因为稳定RNA结构的主体能量是极性相互作用、有着强烈的空间方向分布。







2 氧原子在碱基附近的分布(摘自【1】)

 

但是,27个参与的团队,18个使用了AI深度学习。他们或者进行了端到端的预测,或者先进行AI结构约束的预测再进行能量优化。这些方法并没有能够出现在前四名,也就是说,AI的光辉还没有照亮RNA结构预测。这个现象充分体现了目前存在的RNA已知结构少、同源序列难寻,跟深度学习需要大数据之间的矛盾。怎样让AI模型小数据的训练也能够泛化,从而预测从来没有见过的结构,还需要一段时间来摸索、去解决。

         不管是AI还是传统能量函数方法,对于大多数RNA来说,预测结果的偏差都太大(RMSD>6Å)。这样的精确度是远远满足不了应用的需求,因为高精度的结构预测事实上需要RMSD<2.5Å。所以RNA结构预测问题的解决任重道远,急需科研基金的长期支持和科研人员的努力。只有这样,才能有希望让AIRNA结构预测中起到应该起的作用。

1P. Xiong, R. Wu, J. Zhan, and Y. Zhou, “Pairing a high-resolution statistical potential with a nucleobase-centric sampling algorithm for improving RNA model refinement.”, Nature Communications , 122777 (2021).



https://blog.sciencenet.cn/blog-472757-1367650.html

上一篇:为什么姜还是老的辣:CASP 15蛋白质结构单体预测结果分析
下一篇:人在“羊”途
收藏 IP: 115.44.18.*| 热度|

3 孙学军 孟佳 guest65936183

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 20:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部