高山流水分享 http://blog.sciencenet.cn/u/friendpine 走在科学路上的一位无名侠客,只是静静的走着.........

博文

Muscle,ClustalW和T-coffee的简单比较

已有 20375 次阅读 2010-4-20 23:40 |个人分类:生物信息学与计算生物学|系统分类:科研笔记

ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢?
ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树.但是最常用的是多序列比对.从速度上来说,它有两种运行模式:accurate,slow 和fast,appropriate.即使是fast模式它的速度也不如Muscle,但是slow模式也比T-coffee要快.
ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好.

Muscle的功能仅限于多序列比对,它的最大优势是速度,比clustalw的速度快几个数量级,而且序列数越多速度的差别越大.它的时间复杂度为O(NL^2+N^3L),空间复杂度为O(N^2+NL+L^2).它之所以比clustalw快一方面是因为没有进行两两序列比对,用序列间共有的word数表征序列间的相似性;另一方面用UPGMA代替NJ构建guide tree. 如果没有对于结果的refinement过程,时间更短,时间复杂度为O(NL^2),也就是说时间和序列数成线性关系.一个形象的例子是,5000条长度为350的数据进行比对只需要7分钟,而用Clustalw则可能需要1年. 尽管如此,muscle对于内存的要求较高,从它的空间复杂度可以看出来.

T-coffee之所以广受欢迎可能是因为它的准确度和强大的功能.它能够整合很多信息,如结构信息,实验数据等用于序列比对.它的基本原理是首先构建一个库包含有clustalw得到的序列两两比对和fasta得到的局部两两比对,并且给每个比对一个权重.然后把全局比对和局部比对的结果进行整合,每个两两比对中每个位点的比对都是综合了库中该两两比对的序列和其他序列比对的结果,这样就给该位点比对一个权重用以表明该位点的该比对在整个库中的合理性程度.最后是progressive比对过程..该方法的最大优势在于能够整合各种信息,所以它的可拓展性较强,从2000年出现以来到现在T-coffee得到了极大的发展,功能非常丰富. 但是它的缺点是速度非常慢,其时间复杂度为O(N^2L^2)+O(N^3L)+O(N^3)+O(NL^2),因此数据集较小(n<100)的时候用它比较合适.

以上是三个软件的比较简单的比较,如果想知道的更具体需要看原始文献.需要注意的是,虽然从总体上来说,不同的软件的效果不一样,但是如果我们只是针对具体的问题想做一个比对,那么最好是综合几种方法得到的结果更可靠. 此外,当序列的相似性较高的时候(>80%),以上的任何一个软件的准确度都能够达到90%以上.

https://blog.sciencenet.cn/blog-54276-314266.html

上一篇:期刊的卷和期
下一篇:学习笔记-主成分分析和主成分回归
收藏 IP: .*| 热度|

1 张亮生

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-29 07:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部