flowball的个人博客分享 http://blog.sciencenet.cn/u/flowball

博文

Rosetta进行大分子建模[翻译]

已有 13678 次阅读 2014-3-18 17:22 |个人分类:rosetta|系统分类:论文交流| Rosetta

原文作者 Rhiju Das, David Baker


摘要

近年来的进步使得接近原子精度的蛋白质预测和设计成为可能。这些进展来自于高精度高计算效率的全原子能量函数和用于搜索极端崎岖势能面的有效采样策略的开发,这两者都由结构预测和设计的测试结果的反馈所推动。Rosetta程序中统一的能量和采样框架可广泛用于大分子建模的问题中,从微纤结构预测到RNA折叠再到设计新的蛋白质界面,都易于进行研究和指定区域的改进设计。该方法可创建具有一定功能的新颖分子,并可帮助解释结构以及实验的结果。本文还介绍并评价了晶体图像分析,NMR建模以及低分辨率方法等之间的联系。


1. 介绍

       生物分子演化出了令人惊叹的本领,那就是它们可以由化学序列指导折叠成唯一的三级结构。仅由序列来预测这些结构,以及设计具有新功能的分子,是生物物理领域中的传统问题。虽然这些难题的普适的解决方案尚未找到,但近年来已经有了长足的进步。在2004年,从头蛋白结构建模Rosetta算法中所用的理论和方法被文献总结,稍后,这个方法完成了若干主链精度达到2Å的盲预测。本综述的第一个目的,在于阐述四年来,几个基本方法是如何在蛋白质从头结构预测领域的生物分子建模问题中取得广泛成功的。第二个目的是概述未来四年中,这些方法可能会随着大量分析和操作分子体系的科研工作而愈发成熟。在简单介绍Rosetta方法的基本组成后,我们介绍这些理论如何推广到解决实际应用中,包括:loop建模,考虑主链和侧链柔性的蛋白和配体的docking,RNA折叠等问题。我们最后强调了这些高分辨方法与实验手段的新联系,以及在广泛使用这些混合计算/实验的方法时所出现的问题。

2. 分子建模的关键因素

       大分子结构预测和设计基于这样一个前提:观察到的折叠大分子的构象总处在自由能最低的状态。也就是说,结构预测的根本问题是找到给定序列的生物大分子最低能量的结构,而设计则是要找到使目标结构具有最低能量的序列。这两个建模问题的关键在于合理的精确自由能函数和能够定位所研究生物分子的能量函数最小值点的采样方法。


2.1 能量函数

大分子折叠结构的显著特点是,非极性基团会远离溶剂水而被埋藏起来;埋藏基团或原子会十分紧密的堆积;几乎完全嵌入的极性原子形成分子内氢键。第一个特征产生的直接原因是疏水作用,很多年前被Kauzmann认为是蛋白质折叠的主要驱动力。第二个特征反应了埋藏原子间的VDW相互作用,或许更重要的是在溶剂中的孔穴容纳蛋白质分子耗费很高的自由能。第三个特征由于折叠时从极性基团剥去水分子的自由能开销,必须由蛋白或核酸分子内新产生的氢键来补偿。承认这些特点,尤其是氢键,是早期Pauling和合作者进行蛋白基本而结构预测,以及Watson和Crick对核酸的研究的重要基础。

一个成功的自由能函数必须提高这些优势的贡献来保证大分子的稳定。在Rosetta中,原子-原子间的相互作用LJ势高效的计算来描述堆积,隐式溶剂化模型来描述疏水作用和与埋藏极性原子的静电去溶剂化开销,显式的氢键势来描述氢键相互作用。如我们曾经讨论过的,显式的氢键处理比大多MM势中经典的静电模型有很大的进步,因为氢键的方向性被更好的建模。此外,长程静电相互作用,有名的难以准确计算极化作用,被大大降低。一个对于Rosetta和其他不同方法中使用的能量函数的有洞察力的比较近期被发表。

键合相互作用在Rosetta中被固定为理想键长和键角。剩下的自由度即为二面扭转角,相应的能量函数可能是所有力场中最困难的方面,要准确考虑内在的量子力学效应,而它们很难被严格的分解为独立的经典部分。这些势在Rosetta中采用由高分辨晶体结构中得到的经验模型。这个过程远远不是最优的,因为两次计算了已经在非键相互作用项中考虑过的作用。总之,严格的键相互作用处理仍然是一个难以克服的挑战。

最终得到编码了分子相互作用基本物理信息的能量函数,还必须进行近似。比如,显示溶剂结构,长程静电作用,分子中残留动态被忽略掉了。另一个显著的省略是在分子得到有序结构时可观的熵改变。我们引入一个近似的假设,即堆积的很好的蛋白构象间的构象熵差异很小。

然而,重要的是要认识到,成功地预测和设计蛋白质并不要求一个精度极高的能量函数指标。在一定程度上,结构预测的成功来自于实验测得结构与大量非native构象间的巨大能量差异。在蛋白结构预测中,一个分子被“折叠”意味着在平衡状态,它处在单一的native构象的概率极高。如果这个概率可以达到99.9%,那么由Boltzmann关系,native态和非折叠态间的自由能差至少将达到ΔG=kBT·log(0.999/0.001)=4kcal/mol。实际上,这个自由能垒的典型测量值为3~10kcal/mol。然而由于伴随折叠产生的巨大熵减,能量的差异(相比于自由能)将会更大。实验和理论的研究通过对构象熵的估计认为,native态与其他非折叠态间的能量差异在100kcal/mol量级(大约每残基1.4kcal/mol)。假设native态的能量函数误差在实际能差的10%以内就可以被以合理的信度定位,那么可以允许很大的误差存在。(这个理由过度简化;实际上结构预测需要的精度更大,因为可能有若干能差在几kcal/mol的简并native构象。)虽然几kcal/mol的能量误差不会对结构预测带来太大的拖累,但实际应用时仍需要高质量和高分辨率的自由能函数。而且,与估计构象熵改变相关的挑战使精确的计算折叠或对接的绝对自由能格外困难。

       不管在假定的全原子能量函数中做了如何的近似,辨别native结构和可行的设计的一个决定性方面在于把接触原子维持在它们特定的距离。不幸的是,这些接触距离会导致非常崎岖的势能面,即使非常接近最低能点也会遇到很高的能垒。为了使采样更加容易,建立一个更加平滑的全原子势会十分有帮助,借此高频涨落相关的自由度被高效的“积掉了”。比如在Rosetta中,很多计算的最初阶段会在一个平滑的势能面上进行搜索,把侧链的自由度表示为软作用中心。对于蛋白质,主要驱动力来自非特异的疏水基团的掩埋和β折叠的形成,以及侧链中心虽然有特异性但会被平均掉的相互作用的少许贡献。对于核酸,平滑势中的力来自于粗粒的碱基配对和堆积。


2.2 构象搜索

搜索全局最小值的第一个策略是用一个粗粒化的低分辨势来定位大量的局部极小值。尽可能多的搜索局部极小很有必要,因为采用了平滑的粗粒势,忽略关键的分子间堆砌作用的贡献,必然会导致很大的误差。其实,给出低分辨能量函数的近似性质,在任何可能的地方根据外部信息引入偏倚采样是很重要的。比如,在Rosetta中对蛋白和RNA分子的低分辨结构预测基于这样的折叠图像,局部链段在给定序列的相对低能分布构象中采样。折叠在组合的局部链段被采样到能量很低的三级相互作用时发生。这种在两个不同结构间的摇摆的建模,假设对孤立的序列片段采样得到的结构的分布可以用先验的实验得到该序列晶体结构的分布来很好的近似。

搜索自由能全局最小的第二个策略,是重构由低分辨方法初步找到的可能的最小构象被省略掉的全原子细节。在蛋白质折叠中,这个策略先对离散的氨基酸rotamer的组合进行模拟进行退火搜索。在蛋白质设计的计算中,整个过程类似,还需要考虑所有的氨基酸的rotamer可能处在任意位置,而不是固定的native序列。进一步优化几何结构,Rosetta采用多步 Monte Carlo 最小化过程,包括给扭转角配列一个扰动,并一个一个rotamer进行连续的基于梯度的侧链和主链扭转角的优化。超过前面所说的侧链优化过程,这里的构象扰动包括主链扭转角的微小改变和多个区域的刚体方向的变化。这些移动对常规建模问题的实施以及当前搜索方法的能力和挑战在下一章讨论。


3. 生物分子建模和设计的统一框架

过去几年,全原子能量函数和高效的高分辨搜索方法的进步被很好的扩展到从头预测球状可溶蛋白分子结构的分子建模中。相同的基本成分,即,相同的软件核心,被用来建立相应的大蛋白模型,用于蛋白质-蛋白质界面预测,设计新的蛋白质,甚至研究高分子而非蛋白质。在这部分,我们简单的介绍这些看似多样的分子建模问题如何在一个统一的框架中解决。


3.1 多种问题中的共同要素

       非常普遍的,任何预测和设计的问题都可以明确的表达为一个包含适当自由度和约束的全局最优化问题。所有这些问题的步骤都很相似。首先,定义运动规则,原子随着扭转角或刚体自由度而改变。第二,相应的,截然不同的子树的离散状态的可选集合被指定(在序列每个位置不同侧链rotamers是预测问题,考虑所有或者选定子集中的氨基酸的rotamers是设计问题)。第三,内坐标自由度由模版进行初始化和参数化。最后引入构象改变,这个过程和相关的能量函数在很多不同的问题中都非常相似。

不同建模问题间的主要的不同在于,第一个成分也就是对运动的定义。在模拟分子动力学的软件包中,用一个文件来存储模拟的原子和原子间的键接信息。在Rosetta中,这些运动规则被编码到一个“树状”表示中(文中atom tree),如图所绘。在每个Rosetta的 Monte Carlo 移动中,分子的内坐标子集,比如随机选择残基的主链扭转角被改变。原子树中改变的残基被标记为“祖先”原子保持不变,被影响的原子以及它们的“后代”被平移和旋转来演化运动。另外,为了改变扭转角,两个相关区域的刚体方向可以被改变,这个运动会用过非共价连接编码到原子树。另外,当前的原子树框架允许键长和键角的偏离,虽然这个特征并没有被广泛的检测。

作为图解,用比较模型从头重构loops的低分辨原子树直方图表示在图(a,b)中。从头预测使用了一个简单的原子树,每个骨架原子都与其邻居相连;内扭转角被初始化为相同的值并在模拟中被改变。对于loop建模,需要对重构部分的骨架进行移动而不改变其余部分,所以原子树中引入暂时的链打开,图(b)。在这步执行后,进行相似的重新和loop重构模拟过程,使用基本一样的移动集合,除了最后额外的关闭loop步骤。


       在上述框架中,处理一个新的问题,可以简单的处理为增加一个新的适当的原子树。这个方法的能力会用柔性骨架蛋白-蛋白docking进一步阐释。骨架构象会在蛋白质dock时发生频繁的改变;所以当前大部分docking算法中所用的固定骨架近似会妨碍高分辨的预测。对这个问题最一般的描述是允许所有内坐标和刚体自由度变化图(c),但这样会导致搜索一个巨大的构象空间。替代的方法是,将柔性和刚体原子树片断结合,很直接地只对特殊loops或hinge区域的刚体和侧链自由度进行移动图(d)。或者,在某些特殊情况下,如果允许几何约束可以对所有自由度采用广泛的搜索。图(e)中显示了一个对包含周期几何约束的三螺旋卷线进行结构建模的原子树;一个不同的原子数拓扑f表述的是对伸展的纤维的建模,用此来建模许多与疾病相关的淀粉结构。对第一个蛋白所进行的移动将复制到其他蛋白上,包括二面角改变和所有链的平动及转动(图中细的彩线)。并不需要开发很多更多代码,在重头折叠和混合折叠docking构象搜索过程中所用的能量函数可以直接变换用于低分辨或高分辨的原子树。


Rosetta中处理其他分子模拟建模问题,采用类似的步骤,定义原子树、初始条件、用于装配的rotamers和改变柔性自由度的MC移动清单。建模小分子与蛋白质的结合与蛋白-蛋白docking 图(g)非常相似。建模膜蛋白遵循与建模可溶蛋白相似的过程,即使用不同的低或高分辨的能量函数。对核酸构象的搜索也是可行的。事实上,对于一些Watson-Crick碱基配对已知的RNA折叠,这些额外的配对信息可以通过合适的原子树以及初始配对的刚体平移得以体现并贯穿模拟图(b)。

对于一个看似不同的分子建模应用,设计新的蛋白质,可以采用相同的框架。在设计计算中,结构预测时使用的优化侧链rotamer的模拟退火移动被简单的扩展到包含所有氨基酸的rotamer图(i)。如果需要的话,这个“固定主链”的设计可以和结构refinement(一个成功应用在设计新颖蛋白质原子级精α/β度折叠的策略)在同一个protocol中交替进行。蛋白质设计的方法最近被用来设计一个可以在两个差别很大的构象中变化的序列,更多的亮点和设计问题的相关挑战已经被文献综述。

       不止设计globular蛋白质,能量函数和搜索算法用于蛋白-蛋白docking,小分子docking,蛋白质/核酸相互作用,都可以变化成为相似的设计过程。以图(j)所示蛋白-蛋白界面设计为例,它结合了刚体方向的结构优化和在界面处的氨基酸序列优化。来设计新的蛋白质作用配对。图(k)显示了通过优化与反应过渡态分子间界面从而进行酶设计的“树”。图(l)表现蛋白-核酸界面的设计。



https://blog.sciencenet.cn/blog-637394-777121.html

上一篇:Rosetta安装
下一篇:Rosetta的文件格式和基本操作
收藏 IP: 74.61.17.*| 热度|

1 mathbiophysical

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-29 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部