% d& g9 f7 f* G# A# X
分子进化的研究方法
% d& g9 f7 f* G# A# X 分子进化研究的意义 3 |6 H$ K% L y1 u 自 20 世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化 (molecularevolution) 研 究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提供了有力的帮 助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子 进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。 分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。 ! w b/ }. D- M% t 分子进化研究的基础 假设: 核苷酸和氨基酸序列中含有生物进化历史的全部信息。 * R% _& C' L7 R+ a/ T- v 分子钟理论: 在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图: 5 g% |0 F5 U3 ~8 ~" @
直系同源与旁系同源 直系同源 (orthologs): 同源的基因是由于共同的祖先基因进化而产生的 ; 旁系同源 (paralogs): 同源的基因是由于基因复制产生的 。 / P% M& ]8 Y$ B! U3 ~ 两者之间的关系如下图所示:
注: 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。 z {0 W, O7 ] 分子进化研究的基本方法 2 F. O2 Y) K2 W l! O0 u. m+ G 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 $ o+ D# S/ U0 H! x) N- X 表型的 (phenetic) 和遗传的 (cladistic) 数据有着明显差异。 Sneath 和 Sokal(1973) 将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树 (phylogenetictree) 或树状图 (dendrogram) 来表示。表型分枝图 (phenogram) 和进化分枝图 (cladogram) 两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用 “ 系统进化树 ” 一词来表示进化的途径,另外还有系统发育树、物种树 (speciestree) 、基因树等等一些相同或含义略有差异的名称。 9 g, w, g; V; d3 Z) W 系统进化树分有根 (rooted) 和无根 (unrooted) 树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了 4 个物种部分有根树和无根树形式:
用于构建系统进化树的数据有二种类型:一种是特征数据 (characterdata) ,它提供了基因、个体、群体或物种的信息;二是距离数据 (distancedata) 或相似性数据 (similaritydata) ,它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵 (distancematrix) 是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。
系统进化树的构建方法
7 a4 y! {+ q1 m u* b2 L ? 距离矩阵法 (distancematrixmethod) 是根据每对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。 ? 最大简约 (maximumparsimony) 法较少涉及遗传假设,它通过寻求物种间最小的变更数来完成的。 - n2 X; p$ i3 v* y9 m+ W ? 对于模型的巨大依赖性是最大似然 (maximumlikelihood) 法的特征,该方法在计算上繁杂,但为统计推断提供了基础。 }3 G' ]6 k 距离矩阵法 0 {- Z1 F- A/ p; k' m/ G* a! ? 首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。这里的遗传距离为所有成对实用分类单位 (operational taxonomic units , OTU) 之间的距离。用这些距离对 OUT 进行表型意义的分类可借助于聚类分析 (clustering) ,聚类过程可以看作是鉴别具有相近 OUT 类群的过程。 ! {5 m V1 W$ Z/ i4 f 由进化距离构建进化树的方法很多,常用有如下几种
平均连接聚类法 (UPGMA 法 ) : 聚类的方法很多,包括序贯法 (sequential) 、聚合法 (agglomerative) 、分层法 (hierarchical) 和非重叠法 (nonoverlapping) 等。应用最广泛的是平均连接聚类法 (average linkage clustering) 或称为 UPGMA 法 ( 应用算术平均数的非加权成组配对法, unweighted pair-group method using anarithmetic average) 。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。 Nei 等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时, UPGMA 法一般能够得到较好的结果。但必须强调有关突变率相等 ( 或几乎相等 ) 的假设对于 UPGMA 的应用是重要的。另一些模型研究 ( 如 Kim 和 Burgman) 已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟 (molecularclock) 在起作用。 l. B" D. |3 ?: F& \ Fitch-Margoliash Method ( FM 法) : UPGMA 法包含这样的假定:沿着树的所有分枝突变率为常数。 Fitch 和 Margoliash(1967) 所发展的方法去除了这一假定。该法的应用过程包括插入 “ 丧失的 ”OUT 作为后面 OUT 的共同祖先,并每次使分枝长度拟合于 3 个 OTU 组。 $ N9 u* y# I$ m [$ W9 O Margoliash 担心他们的法则所得到的拓扑结构可能是不完全正确的,并建议考查其它的拓扑结构。可以采用 Fitch 和 Margoliash(1967) 称之为 “ 百分标准差 ” 的一种拟合优度来比较不同的系统树,最佳系统树应具有最小的百分标准差。根据百分标准差选择系统树,其最佳系统树可能与由 Fitch-Margoliash 法则所得的不相同。当存在分子钟时,可以预期这一标准差的应用将给出类似于 UPGMA 方法的结果。如果不存在分子钟,因而在不同的世系 ( 分枝 ) 中的变更率是不同的,则 Fitch-Margoliash 标准就会比 UPGMA 好得多。通过选择不同的 OUT 作为初始配对单位,就可以选择其它的系统树进行考查。具有最低百分标准差的系统树即被认为是最佳的,并且这个标准是建立在应用 Fitch- Margoliash 算法的基础上的。 4 C) Q( R8 E9 t- v y FM 算法的基本步骤: 1、 找出关系最近的序列对,如 A 和 B 2、 将剩余的序列作为一个简单复合序列,分别计算 A 、 B 到所有其他序列的距离的平均值 3、 用这些值来计算 A 和 B 间的距离 4、 将 A 、 B 作为一个单一的复合序列 AB ,计算与每一个其他序列的距离,生成新的距离矩阵 6 g! x% B/ n8 t0 |! L3 o1 e5 [ 5、 确定下一对关系最近的序列,重复前面的步聚计算枝长 . B' x( i0 f, b/ ^ 6、 从每个序列对开始,重复整个过程 % W. L6 t/ d" c, A0 Z2 r 7、 对每个树计算每对序列间的预测距离,发现与原始数据最符合的树 Neighbor-JoiningMethod(NJ 法 / 邻接法 ) : 邻接法 (Neighbor-joiningMethod) 由 Saitou 和 Nei(1987) 提出。该方法通过确定距离最近 ( 或相邻 ) 的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点 (node) 相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。 s }% i8 U" J1 o: i 最大简约法 最大简约法 (maximum parsimony , MP) 最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆( Ockham )哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。 : l' F! p& _- }4 X Felsenstein指出,在试图使进化事件的次数最小时,简约法隐含地假定这类事件是不可能的。如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树。 最大简约法的优点 :最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。 - D- D# Q( K, _ 缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多 的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。 _# n+ F+ X4 i- q 最大似然法( ML ) z1 P* v( K& v- u3 R 最大似然法 (maximum likelihood,ML) 最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。 $ [; L- G9 K+ P6 s3 ~% K 最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构 作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率球最大值来估计枝长。最大似然法的建树过程是个很费时 的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。 , S3 C7 J; [7 A8 F4 \6 K2 p9 Z" I 最大似然法也是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。 . u/ Z$ H* K; w4 \4 d5 ` 注:上述只是对系统进化树构建方法的简要介绍,没有深入每种方法的构建原理等方面,若想进一步了解,请参见附件中的《生物信息学札记――分子进化:系统树的构建,樊龙江编》。若欲深入了解,请参考相关文献。
更新:
其实上面的那些方法,都可以称为Concatenated(串级)方式的分析方法,就是先把marker 如:直系同源基因 alignment后,用相应软件以串联的方式连接起来,然后推断系统发育树,这通常叫concatenated analysis。
我们都知道每个同源基因或者maker的进化速率是不一样的,所以最近非常流行Coalescent(有人翻译成 溯祖)analysis,我的理解是 每一个直系同源基因先alignment,建树,然后再用相关软件把每个tree合并,实际的软件也是这样做的。如果做Phylogenomics trees的话,一般都要用这个方法做一下,其中我的一篇文章也用了这个方法分析了(审稿人要求的)。这个方法相应的软件有MPEST,*BEAST(这个软件已集成在BEAST 1.75版本),BUKY,STAR.网址:http://bioinformatics.publichealth.uga.edu/SpeciesTreeAnalysis/index.php
相关文章:
References [1] Liu, L., L. Yu, D.K. Pearl, and S.V. Edwards. Syst. Biol. 2009, 58(5):468-477. [2] Liu, L., L. Yu, S.V. Edwards. BMC Evol. Biol. 2010, 10:302. [3] Liu, L., and L. Yu. Syst. Biol. 2011, 60: 661-667.
系统进化树构建常用软件汇集
系统进化树构建方法及软件的选择
构建方法的选择 从上述我们可以了解到,构建系统进化树的方法主要有:基于距离矩阵的方法( UPGMA 、 NJ ( Neighbor-Joining ,邻接法)等、 MP ( Maximum parsimony ,最大简约法)、 ML ( Maximum likelihood ,最大似然法)以及贝叶斯( Bayesian )推断等方法。其中基于距离矩阵中的 UPGMA 法已经较少使用。 % a1 s) m4 R! b1 R$ D7 A 一般情况,若有合适模型, ML 的效果较好;近缘序列,一般使用 MP (基于的假设少);远缘序列,一般使用 NJ 或 ML 。 : G( ]! S" y1 W/ S' p" |. y 对相似度很低的序列, NJ 往往出现 Long-branch attraction ( LBA ,长枝吸引现象),有时会严重干扰进化树的构建;贝叶斯的方法则太慢。各种方法构建的系统进化树,( Hall BG. Mol Biol Evol 2005, 22(3):792-802 )认为贝叶斯方法的准确性最高,其次是 ML ,然后再是 MP 。其实若序列有较高的相似性,各种方法都会得到不错的结果,模型间的差别也不大。 / q2 s% @+ Z% b8 ^3 q 对于 NJ 和 ML 两种方法 ,需要选择构建模型。对于核酸及蛋白质序列,两者模型的选择是不同的。蛋白质的序列,一般选择 Poisson Correction (泊松修正)这一模型;而对于核酸序列,一般选择 Kimura 2-parameter ( Kimura-2 参数)模型。 , a4 Y' s1 d8 ?. B# Y2 c Bootstrap选项一般都要选择, 当 Bootstrap 的值 >70 ,一般都认为构建的进化树较为可靠。如果 Bootstrap 的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。 对于进化树的构建,如果对理论的了解并不深入,则推荐使用缺省的参数,并启用 Bootstrap 检验。一般情况下,使用两种不同的方法构建进化树,如果得到的进化树基本一致,结果较为可靠。 构建软件的选择 * [' l, r) , ?0 y, P1 构建 NJ 树,可以用 PHYLIP 或者 MEGA 。 MEGA 是 Nei 开发的方法并设计的图形化的软件,使用非常方便,推荐使用。虽然多序列比对工具 ClustalW/X 也 自带了一个 NJ 的建树程序,但是该程序只有 p-distance 模型,而且构建的树不够准确,一般不用来构建进化树。 ! I' P, d7 N! D3 P( U8 ]2 u X: x% _ 构建 MP 树,最好的工具是 PAUP ,但该程序属于商业软件,并不对科研学术免费。 MEGA 和 PHYLIP 也可以用来构建 MP 树。 构建 ML 树可以使用 PHYML ,速度较快。也可使用 Tree-puzzle ,该程序做蛋白质序列的进化树效果比较好。 ML 还 可以使用 PAUP 、 PHYLIP (或 BioEdit ) 来构建。 BioEdit 集成了一些 PHYLIP 的程序,用来构建进化树。 Tree-puzzle 是另外一个不错的选择,不过该程序是命令行格式的,需要学习 DOS 命令。 - M6 ~& P6 u9 l- z6 i, ]5 T 贝叶斯的算法以 MrBayes 为代表,不过速度较慢。一般的进化树分析中较少应用。 ) E a6 ^+ G& b' W: _ 进化树评估优化方法简介: 常用的两种方法就是Bootstrap 和 Jackknife 。 9 y1 e+ e7 L u& L' Z; s4 k8 Y 所谓Bootstraping 法 就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列,一个多序列组也就可以变 成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比 较,按照多数规则( majority-rule )我们就会得到一个最 “ 逼真 ” 的进化树。 Jackknife 则是另外一种随机选取序列的方法。它与 Bootstrap 法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
http://www.molecularevolution.org/
http://evolution.genetics.washington.edu/phylip/software.html
转载本文请联系原作者获取授权,同时请注明本文来自赵磊科学网博客。 链接地址: https://blog.sciencenet.cn/blog-299308-682485.html
上一篇:
科学网BLOG申请通过 下一篇:
禾本科BEP分支及近缘物种的比较进化基因组学研究取得重要进展