周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

蛋白质结构预测的重大突破 精选

已有 10889 次阅读 2018-12-4 07:50 |个人分类:科技推广|系统分类:科研笔记| 蛋白质结构

        蛋白质是生物细胞内的分子机器,要想知道蛋白质是怎样工作的,就必须知道机器的结构。如果这个蛋白在某个疾病中起关键作用的话,有了它的结构,就可以设计药物分子来抑制它的功能,这就是为什么用实验方法来解出蛋白质结构出了无限多的Nature,Science,Cell及众多个诺贝尔奖。但是无论是X射线结晶,核磁共振,还是目前如火中天的冷冻电镜都不可能把10亿个已知“干不同工作”的蛋白质的结构都解出来,因为解一个结构顺利的话也要几万美金,谁有这个钱哪?更不要说拿晶体,解结构是劳心劳力的活,所以到现在几十年来也只有不到五万个不同蛋白质的结构被解出来了。这就是为什么用计算方法来预测,来折叠蛋白质(protein folding)是不得不走的一条路。

         蛋白质结构预测的历史悠久,每两年的蛋白质结构预测的比赛(CASP)都13届、26年了。这20多年来,进展缓慢,慢到几乎看不出来,而不同组的精确度差别一般也就百分之几,比统计意义高一点。所以当今年突然冒出一个比第二名好出20%的,网上要炸了。

         原来是Google DeepMind的AlphaGo队伍改做AlphaFold(折叠)。从有限的Google博客可以看到他们用深度学习来预测蛋白质主链的角度和蛋白质氨基酸之间的距离,及其分布,然后用预测的结果来构建打分函数,最后用片段组装的方法来预测最后的蛋白质结构。从目前简单的方法介绍看来每一步都是以前许多人包括我们也做过的,但他们把各种方法有机地组合在一起,能到达这样好的结果,真是一个了不起的成就,简直是平地一声惊雷,把这个多年来非常平乏无味,可以说死气沉沉的领域给震醒了。但也可以说,他们的成功是建立在多年的很多人的贡献和研究的积累,没有量变哪有质变。

         这个结果我们组昨天也知道了,自然静不下心来,毕竟我在这个行业也干了十几年了,CASP6那年(2004),我们组也曾经得过基于模板预测的第一名。但在美国时由于一直没有运气得到NIH在这方面的资助,也只能半死不活地凭兴趣做着。到了澳大利亚后,我们最近也发表了用最新深度学习方法来预测蛋白质主链的角度(SPIDER2,3,Bioinformatics,2016,2017, SPOT-1D, in press, 2019)和蛋白质氨基酸的之间的距离图(contact map by SPOT-Contact, Bioinformatics, in press, 2018),今年刚刚拿到澳大利亚ARC的资助,原计划下一步就用预测的这些结构性能来作为约束进行三维结构的预测,合适的人还没有找到,就被Google集中17个人的一个团队两年时间来超出我们一大截了,估计有很多人由于缺乏资金、人员有类似的感受。不管怎样,这是科学的一大胜利,值得庆祝!欢迎更多不缺钱的公司来做这样吃力不讨好的基础研究。

         我们今年也参加了比赛,但结果没有那么好,有点失望,主要原因是新方法没有测试好就因为时间到了只好匆匆上马了。当然即使测试好了,结果也不会有AlphaFold那样的惊艳,不过我们参加的蛋白质无结构区的预测(Continuous Assessment of Intrinsic protein Disorder, CAID)也刚刚在CASP13宣布了结果。无结构区的预测也很重要,毕竟大多数蛋白质有“无结构区”,知道这些无结构区对有结构区的结构预测、实验解析、功能预测有极大的重要性。我们的方法SPOT-Disorder/SPOT-Disorder2有幸拿了第一、二名,也算是失望中的希望。

         不过,AlphaFold虽然迈出了一大步,能够把2/3无模板的蛋白质的结构大体预测出来,但离原子精度还有一段距离,更不用说蛋白质和其它分子的结合体了。所以我不用担心马上失业,几千万的冷冻电镜也不需要马上就卖掉,这个领域还继续需要、甚至更需要资助,因为最后一公里是最难走的。估计Google 打了一枪,得到了想要的掌声,就要换地方了,剩下的骨头还得我们这些职业乞讨家来慢慢地啃。




http://blog.sciencenet.cn/blog-472757-1149722.html

上一篇:代表作好,但决不能唯代表作
下一篇:建议国家自然科学基金开放英语申请

15 郑永军 蔡小宁 张叔勇 冯大诚 黄永义 刘士勇 蒋新正 姬扬 周健 彭友松 许先进 杨顺楷 唐凌峰 许锦波 巩卫康

该博文允许注册用户评论 请点击登录 评论 (18 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-3 21:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部