||
导读:2009年,我在马剑鹏教授所组织的Telluride Workshop作了关于《什么样的1和2会得到3:蛋白质的三维结构?》(What are the ‘1’ and the ‘2’ that would lead to the ’3’ - the three-dimensional structures of proteins)的报告。现在,这个1+2=3的问题终于被AlphaFold2用端到端的深度学习攻克了!
昨天的发生一件大事就是谷歌DeepMind公司的AlphaFold2蛋白质结构预测方法的论文在Nature杂志上的发表及David Baker组作为学术界的代表试图复制AlphaFold2而在Science杂志上发表了他们的一次努力。这一下朋友圈、公众号全炸了,作为在这个领域耕耘了多年的一员,我也一睹为快,迫切想知道AlphaFold2靠的到底是超算蛮力,还是智慧巅峰?虽然我眼红他们所具有的蛮力,但不能不承认文章里面干货满满的,创新点众多,是蛮力加智慧的结晶,数学与物理的联合,值得追捧。
首先是充分利用他们具有的蛮力:把所有的序列数据库(UniREF, BFD, 和MGnify)找到尽可能多的同源序列都作为一维的输入信息,并把所有的PDB结构数据库找到尽可能多的同源结构都转化为一维的序列和主链角度及二维距离信息来输入。通俗地说输入的是1+2,是为了获得准确的三维结构(3)的输出。为了实现这个目标,谷歌团队发展、利用了符合物理性质的数学算法:三角不等式(两边距离之和不小于第三边)和刚体平移及旋转的不变性。同时主链结构、支链结构以及结构误差预测的结合保证了在原子水平上准确的端到端三维结构优化及预测。此外还使用了预测的假结构及序列的随机突变来加强训练的鲁棒性。
相比而言,David Baker组用比较小的训练量,重复了AlphaFold2里面部分1+2=3的创新,结果虽然比目前的方法有所改进,但离AlphaFold2的精确度还有不小的距离,个人认为这不完全是由于训练量小而引起的,至少一部分是由于AlphaFold2以前透露的信息不完全所造成的,不是全方位的重复。虽然这次DeepMind把预测的源代码公开,但靠巨大的机器训练来获得源代码里的参数却不是人人能做的。不使用超大的训练能到得到什么样的精确度这是个重要的问题,还需要时间和更好的算法来证明,但估计1-2年内局势就会明朗,这真是一个令人激动的me too时代。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 11:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社