||
1.什么序列适合建树?(建树的前提)
很多同学老师都习惯性的拿到序列,直接多重比对后,顺手拿个软件就直接建树。殊不知,有些序列根本就不适合建树,构建的系统发育树根本没有意义,不过徒增一个冗余数据而已,这种情形也常见于一些国内期刊中。
首先我们要明确建树都有一定的前提,比如:对于核苷酸序列,其中最主要是序列饱和度检验(Test of substitution saturation)。如果建树所用的序列已趋于饱和状态,就完全没有必要建树。
2. 建树常见的方法有哪些?
常见的建树方法有:
邻接法(Neighbor-Joining, NJ)
最大似然法(Maximum Likehood, ML)
最大简约法(Maximum Parsimony, MP)
和贝叶斯法( Bayesian inference, BI)
NJ法构建的树相对准确,假设少,计算速度快 ,只得一颗树。适用于进化距离不大,信息位点少的短序列。缺点是序列上的所有位点等同对待,且所分析的序列的进化距离不能太大;
ML法对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树即最可能的系统发育树。在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法,但缺点是计算强大,耗时太久哦。
MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。缺点是推测的树不是唯一的,变异大的序列会出现长枝吸引而导致建树错误。
BI法适用于大或复杂的数据集,缺点是对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条件下,在现实中可能不成立。
3.如何建树?
(1)多重序列比对;(2)序列保守区选择;(3)核苷酸替代模型选择(蛋白质类似,MP法不需要这个步骤);(4)选择建树方法(NJ、ML、BI、MP)...
4.如何进行建树的多重比对?
速度:Muscle>MAFFT>ClustalW>T-Coffee;
准确性:MAFFT>Muscle>T-Coffee>ClustalW
所以推荐使用MAFFT这款多重比对软件(之前小圆也介绍过这款软件噢,回复数字“6”查看~)
5.如何处理冗余的序列?(保守区的选择)
人为手式删除冗余序列,偏向主观化,数据不具重复性,推荐使用Gblock 0.91b软件来处理,在线服务器:http://www.phylogeny.fr/version2 ... i?task_type=gblocks,Gblock适用于长的多重比对序列,如果多重比对序列较短,不推荐使用Gblock处理。
6.系统发育树左下角的标尺表示什么?
根据是否带有尺,系统发育树可分为标度树和未标度树。标度树上的标尺单位因不同算法而异,NJ树的表示遗传距离,MP树的表示性状状态变换的步骤数,ML树和BI树的每个位点上的替换数。
7.如何在Figtree中显示MrBayes生成树的后验概率?
Figtree首次打开树文件时,需要先定义标签(Label)的名称(如:BI法的推荐用 prob 或 posterior,MP、ML等推荐用Bootstrap),然后在主菜单左侧“Node labels”或“Branch Labels”-“Display”下拉菜单选择定义好的名称即可。
8. 核核苷酸替换模型选用的标准哪些,如何选择标准?
常见的有hLRT、AICc、BIC和DT标准,当参照不同的标准会得到不同的模型参数时,建议选用AIC或BIC标准。
喜欢的朋友可以收藏这个帖子噢~这篇文章来源于Raindy老师,原文地址:https://user.qzone.qq.com/58001704/2?ptlang=2052&t=0.5276156314968086&_t_=0.3605728073805645
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 06:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社