||
2022年最新一轮的蛋白质结构预测比赛(CASP15)的结果在12月10日-13日的会议中将陆陆续续的公开。在CASP网站上,已经公布了蛋白质单体结果预测结果的排名。前三名分别是山东大学杨建益为首的Yang-Server, 密歇根大学Wei Zheng, Qiqige Wuyun, 和Peter Freddolino 三人的UM-TBM,以及Infinity Curation公司Toshiyuki Oda的PEZYFoldings ,特此祝贺杨建益教授!
虽然AlphaFold2没有直接参加比赛,AlphaFold2在以上的Yang-Server,UM-TBM,和PEZYFoldings方法里面都被部分或者全面的使用。根据这些方法的会议论文摘要显示,PEZYFoldings实际上是AlphaFold2的变体:首先它通过利用不同搜索工具以及不同蛋白质序列数据库来产生不同的同源序列组合,然后这些不同的同源序列组合分别输入AlphaFold2进行预测。预测出来的多个结构根据AlphaFold2内部的PLDDT排名以及结构比对,来进行最后的人为挑选。UM-TBM则是对密歇根大学张阳组以前所建立的多个工具的使用和改进,再加上AlphaFold2以及其他深度学习方法产生的结构约束,和AlphaFold2的产生多个结构一起进行重新折叠,优化。而Yang-Server是在以前trRosettaX的基础上改进了氨基酸距离和角度的预测,并用trRosetta的能量函数进行折叠。对于trRosetta预测不好的结构,他们直接使用了AlphaFold2的结构。所以很明显,上面三个方法,或者是在工艺上的优化,或者是AlphaFold2综合以前成功方法(I-TASSER,trRosetta)的预测。值得注意的是DeepMind虽然没有参加比赛,Jumper的报告指出即将发布利用更大数据库训练的AlphaFold3,会不会把其他方法再一次抛开?我认为即使抛开,估计也不会抛得太远,因为本质没有变化太多。
从上面三个最佳预测方法的分析可以看出来,这次CASP15还是由AlphaFold2隐形取胜。这暴露出CASP比赛常年被人指责的弊病:它的比赛只管最终预测结构的好坏,从而有利于多个已知好方法的组合成功,正如这次AlphaFold2在许多方法中的使用。这也是多年来CASP比赛被几个组或者他们的接班人轮流做庄的原因(当然组合成功也是不是容易的、需要创新,但它更是一个工程的问题,而不是一个科学的问题)。刚开始发展的新方法不可能一下子就比优化多年的多个方法组合的结果好,从而名落孙山、被大多数人所忽略、被基金申请所拒绝!前年要不是DeepMind公司财大气粗,靠大数据、多人攻关、全方位推动了端到端深度学习的预测,端到端的预测很可能被遗忘,因为第一个方法端到端的预测RGN的CASP结果很差。我曾经参加过美国NIH CASP会议比赛经费的评审,希望给不同的方法,在同等数据的基础进行比较,给创新方法一个露面的机会,但并没有被采纳。从而导致了姜还是老的辣这个长期现象。
不管怎样,后AlphaFold2时代的单体结构预测又将进入一个新的渐进发展阶段,正如过去几十年的结构生物信息学的渐进加上深度学习的突破导致了AlphaFold2的来临【见我的上一个博文:痛并快乐着:蛋白质结构预测的边角故事。https://blog.sciencenet.cn/home.php?mod=space&uid=472757&do=blog&id=1348084】。这个渐进时代的开始一方面是在CASP里,新方法被淹没在前几名的光辉下,从而不能很快被发扬光大;另一方面是因为对同源序列进化信息的利用已经接近了极限。新的突破将需要解决下面这个问题:怎样不利用进化信息、靠单个蛋白质序列就能进行蛋白质结构高精度预测?也就是说如何能够模仿蛋白质折叠的天然能量函数去折叠每个蛋白质?这个问题的解决才能真正回答为什么一些蛋白质序列的少量变异就能对它们的结构、功能带来致命的影响!
当然,这个蛋白质结构预测的渐进发展阶段并不影响利用AlphaFold2以及类似方法对已经有高质量同源序列进化信息的蛋白质进行深入的结构、功能,以及药物设计上的研究。同时,下一个大创新需要时间、运气、耐心以及技术、算法的进一步发展,我们拭目以待。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 11:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社