周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

从深度诱变的测序来推测RNA/蛋白质的三维结构 精选

已有 4404 次阅读 2019-12-25 08:57 |个人分类:科技推广|系统分类:科研笔记| 深度诱变, 结构预测

序列决定结构,结构决定功能,这是RNA 和蛋白质这样的生物大分子的基本法则。这也是为什么 Nature / Science杂志热衷于发表这些生物分子机器的精细结构的原因,因为只有知道了结构才能知道功能背后的原理。如果这些机器坏了,有了结构才能想方设法去修理,去改变。目前原子水平的高精度结构的解析主要靠X射线晶体衍射,核磁共振,和冷冻电镜。如果通过测序就能推测结构,不仅仪器要求远低于X射线晶体衍射、核磁共振、和冷冻电镜方法,而且对样品的要求也更简单,很可能提供一条生物大分子结构研究的新路线。

 

为什么测序就有可能测定结构?这还得从同源蛋白说起。同源蛋白是来源于同一个祖先的蛋白,有相同或相似的功能,但由于是在不同生物体内进化的(或者在同一生物体内分化),所以氨基酸序列就不再一样。但因为功能相似,同源蛋白通常有类似的结构,所以在同一个家族有一个蛋白质的结构被解析了,其它蛋白质的结构也就大体知道了,这就是所谓的同源建模。曾经,结构基因组项目(structural genomics)想把每一个家族代表性的结构解析出来,用了15年(2000-2015),花费20亿美元后,测定了超过13,500个蛋白结构。可是现在越来越便宜的基因组测序使新发现的蛋白家族增长的速度远远超过结构解析的速度,用这个方法来解析所有代表性蛋白的结构无论从经济上还是在时间上都是不现实的。但同时越来越便宜的测序也使许多蛋白质家族因为新成员的发现而变的越来越大。不一样的序列但有同样的结构,这里面就会包含着许多相关突变的信息。比如,两个相互接触的蛋白质氨基酸残基,如果一个在进化中突变成体积更大的残基,另外一个不得不突变成小一点的残基才能使结构以及功能保有原来的稳定性,这个相关双突变的信息如果能从同源序列里萃取出来就能获得高精度的结构信息。这些结构信息,如果足够多,就可以用来作为残基之间距离的约束,就像核磁共振得到的距离约束那样来推测结构。2011年提出的直接相关分析方法(direct coupling analysis)及其发展实现了这个目标。去年结构预测比赛(CASP13)中,直接相关的结构信号通过深度学习的增强,大幅度地提高了蛋白质结构预测的精度。也就是说大家族的蛋白质结构完全可以用计算方法高精度地预测,也就是说测出一个大家族的蛋白质许多序列,就能推断出结构。

 

但是大多数蛋白质家族不够大,有些是因为进化时间不够长,有些是某个物种特有的,还有是因为物种测序还没有覆盖到。对于这些蛋白质,是不是可以用人工的方法产生足够多的同源序列?长期以来,分子生物学家用基因诱变的手段来改进蛋白质的功能,和测序结合后,可以进行大批量诱变(深度诱变)从而能对蛋白质来进一步分析结构和功能的关系。原则上,这些经过功能筛选的突变体都是同源序列,但同源程度特别高(只差几个氨基酸),一般认为不适合常常用来分析同源程度低的相关双突变的方法。

 

今年6月,两篇Nature Genetics文章利用以前发表的小蛋白质深度诱变的数据,通过改进上位效应分析方法(epistasis analysis),成功地从高同源序列里萃取出相当的结构信息,从而达到高精度结构的预测【12】。我们组一直也在这方面努力,2012年在美国Indiana的时候就拿过一个小基金来做这件事,不过当时没有探索成功。到了澳大利亚后,改做RNA。通过对核酶的深度诱变,利用自己发展的一个称为CODA方法,就能从高同源序列获取双相关突变的结构约束。与中科院合肥物质科学研究院王俊峰老师合作,我们成功地恢复出几乎所有的碱基对,包括需要三维结构才能稳定的假结、非规范、非螺旋碱基对【3】。通过比较,这个CODA方法要比上述的epistasis analysis的灵敏度及精确度更高。而且即使不用我们的方法,用其它相关突发方法加上简单的Monte Carlo能量优化也可以达到非常高的准确度。

 

这些结果表明,测序的确就可以用来推测结构。不过目前这些方法还局限于小蛋白,小RNA,需要能进行高通量功能筛选与测序相结合,不是所有的RNA/蛋白质都可以用这个方法,但方法的进一步改进和完善应该能对相当一部分RNA/蛋白质有效,从而给结构解析带来新的选择。


对RNA有兴趣的朋友,还可以看看

打破RNA二级结构预测精度的天花板

书里淘金:有功能的长非编码核糖核酸(lncRNA)到底有多少,怎样淘到它?

 

1Rollins, N.J., Brock, K.P., Poelwijk, F.J., Stiffler, M.A., Gauthier, N.P., Sander, C. and Marks, D.S. (2019) Inferring protein 3D structure from deep mutation scans. Nat. Genet., 51, 1170–1176.

2Schmiedel, J.M. and Lehner, B. (2019) Determining protein structures using deep mutagenesis. Nat. Genet., 51, 1177–1186.

3Zhang, Z. Xiong, P. Zhang, T. Wang, J. Zhan, J. and Zhou Y., “Accurate inference of the full base-pairing structure of RNA by deep mutational scanning and covariation-induced deviation of activity.”, Nucleic Acids Research, open access (2020). https://doi.org/10.1093/nar/gkz1192

 

 

 

 

 

 




http://blog.sciencenet.cn/blog-472757-1211385.html

上一篇:打破RNA二级结构预测精度的天花板
下一篇:新冠病毒时代的双州记 -- 同样方针,不一样的效果

3 曾新林 高建召 吴晓敏

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-12-4 08:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部