||
第1章: Protein fold recognition and Threading
Fold recognition and threading 是为目标序列指定folds. 通常该序列和已知结构有个低的序列相似度.fold recognition 使用能量函数或者 其他相似分数的方法来比较 目标序列和 fold templates . 具有最低能量函数的模板将作为目标序列的fold。
Threading 最早是在90年代 由 Jones, Taylor and Thornton 为了描述 protein fold recognition 方法而杜撰出来的一个词汇。 Jones开发了第一个真正意义上的threading算法 THREADER。 “threading”太流行了以至于大家就用它来只带protein fold recognition 问题。 从严格来讲,threading 只是 fold recognition 个的一个子类问题。并且 threading 也慢慢不在那么广泛地使用了。
Fold recognition 用来指代这些方法,不依靠序列相似度来搜索,通常目标序列和模版的相似度在25-30%, (twilight zone)。
早期的fold recognition方法是利用序列比较。得益于序列比对算法的快速发展,搜索序列变得非常方便。但是根据 Brenner et al. 的研究,当序列相似度小于30%的时候,传统的两两比对算法就发现不了两者的关系了。 之后,序列比较的广发可以通过 sequence-profile 的方法来faxian 相似距离较远的序列。如PSI-BLAST方法。再后,发展起来一种 profile-profile额方法, 即产生目标序列的profile 和模版的profile 然后比较两者的profile。利用基于profile的方法可以发现低于25-30%序列相似度的模板.
但是, 这些方法不能识别哪些有相似的folds 但非同源的蛋白 (these methods often did not preform adequately at recognizing the relationship between non-homologous protein targets wihich have similar folds).
基于结构的方法开发 出来,是基于二样的想法,即 序列中的残基的结构信息比残基本身更加 保守. 所以, Bowie et al. 在1991 年通过考虑三种结构信息: the solvent accessibility, the contact with polar atoms and the secondary structure. 即将结构 转换为含有这三个结构的字符串,然后对这些字符串进行比较. 受该研究的启发,这一时期发展了很多将结构信息转换 新的字符串,然后进行比较.这一时期的算法统称为 优化的序列算法 optimal sequence threading.
但是这类算法有局限性:1.双动态规划发耗时,算法产生的 多个分数需要专家来解读.在单个folds的结构预测较差.(limited to predicting structures with single domain folds).
之后发展起来的i混合算法.以及meta-算法.
LiveBench 和EVA 提供连续的结构预测数据集.前者侧重比较fold recognition 方法,后者侧重比较二级结构和接触数方法的比较 (contact order prediction).
近年的CASP比赛中将算法分为template-based, template-free 两大类. 将来 template-based的方法将是这一领域的主流方法.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 21:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社