||
一、自然选择的检测
非同义替代与同义替换的比值,即:ω 值,也就是通常所说的dN/dS(或Ka/Ks)。
(1)当ω =1时,中性进化 (Neutral selection),即不受选择:
(2)当ω >1时,正选择(Positive selection);
(3)当 0 <ω <1时,负选择(Negative selection,也叫净化选择或纯化选择 Purifying selection)
1、两两基因的密码子序列进行比较,从而计算dN/dS,即omega(ω)值。若该值<1,则表示纯化选择;omega = 1,则中性进化;omega > 1,则正选择。若分析基因在两个物种中的序列,可以计算dN/dS的值,若omega > 1,即表明该基因在物种进化过程中,即由其祖先物种分化成这两个物种时,基因受到了正选择。对于两个物种/序列的正选择分析,比较简单。而实际情况中,要分析的物种数量很多,包含多个类群。这个时候的正选择分析相对复杂些。
2、对多个物种的基因序列进行正选择分析,若仍然按照两个物种时的要求,即分析该基因在物种进化中是否受到了正选择?这种结果可能不好说清楚。因为该基因可能在某一类群中序列很相似,其两两比较时,omega <= 1;而在另外一类群中两两比较时,很多时候omega > 1。最后软件可以从总体上给一个omega值,该值不可以拿来简单地评价该基因是否受到了正选择。所以,对多个物种进行正选择分析时,没法直接评价该基因是否受到了正选择。正选择只有在进行两两序列比较的时候,才能计算omega值,从而得到结果。
3、对基因在多个物种上的正选择分析,分析的目的则是:比较某个分枝上祖先节点和后裔节点(可以理解成,对无根树上某分枝两侧的两组物种进行比较,依然属于两两比较),从而计算该分枝的omega值。而在实际数据中,基因在不同的进化分枝上具有不同的omega值,同时在序列不同的位点也具有不同的omega值。目标分枝两侧的物种数量较多时,可以对序列上的每个位点进行omega值分析,从而鉴定正选择位点。所以,对基因在多个物种上的正选择分析,需要同时分析分析目标分枝的omega值和序列位点的omega值,从而判断基因是否受到正选择压。
1、PAML site model: 主要用于检测基因中的正选择位点。该方法分析时,认为进化树中各分枝的omega值是一致的,并比较两种模型:(1)模型m1是null model,认为所有位点的omega值<1或=1; (2)模型m2是正选择模型,存在omega <1、=1或> 1的位点。比较两个模型的似然值(lnL)差异,利用卡方检验(自由度为2)算出p值。若p值 < 0.05,则否定null model,认为存在正选择位点。此外,推荐采用比较模型m7和m8,它们将omega值分成了10类,其p值结果比上一种比较方法更宽松,能检测到更多的正选择基因。使用PAML site model方法能在整体水平上检测基因的正选择位点,而不能表明基因在某个进化分枝上是否受到正选择压。
位点模型 (Site model)主要假设数据集中不同氨基酸位点受的选择压力不同(而不考虑不同支系间受的选择压力差异)。
该模型主要用于检测正选择( ω >1)作用,共有8个不同假设的模型:
(1)M0(单一比率),即:One-ratio model,假设所有位点具有相同的 ω 值;
(2)M1a(近中性),假设仅有保守位点(0<ω <1)和中性位点( ω =1)而没有正选择位点( ω >1)存在,这两类位点的比率分别为p0和p1,其对应的ω 值分别为ω0、ω1;
(3)M2a(正选择),该模型在M1基础上增加了第三类ω值,即假设除了保守位点和中性位点外,还存在处于正选择压力下的位点( ω >1),这三类位点的比率分别为p0、p1和p2,其对应的ω 值分别为ω0、ω1和ω2;
(4)M3(离散),假设所有的位点ω 值呈简单的离散分布趋势;
(5)M7(beta),假设所有位点的 ω 属于矩阵(0, 1)并呈beta分布;
(6)M8(beta & ω ) ,该模型在M7基础上增加另一类ω 值(ω >1);
(7)M8a(beta & ω =1),与M8模型类似,但将ω 值固定为1(ω =0);
2、PAML branch-site model: 主要用于检测基因在某个进化枝上是否存在的正选择位点。该分析方法认为目标分化枝具有一个omega值,其它所有分枝具有一个相同的omega值,然后再检测正选择位点。同样对两种模型进行比较:(1)第一种模型为模型2,将omega值分成<1、=1、>1的三类,这和site model中的一样;(2)第二种模型和前者一致,只是将omega固定成1,作为null model。比较两种模型的似然差异,利用卡方检验(自由度为2)算p值(chi2命令算出的值除以2)。若p值< 0.05,则能通过Bayes Empirical Bayes (BEB)方法计算正选择位点的后验概率,若存在概率值 > 0.95正选择位点,则表示基因在目标分枝上受到正选择压。PAML软件在branch-site模式下,并不给出分枝上的omega值。这表示branch-site模式虽然考虑了目标分枝上具有不同的omega值,但仍然以分析位点上的omega为主。值得注意的是,在branch-site模式下可能检测到正选择位点,但在目标分枝上的omega值仍然可能低于1。可能软件作者基于这点考虑,就没有给出目标分枝上的omega值,以免影响一些人对正选择结果的判断。
枝位点模型 (Branch site model):主要假设不同氨基酸位点的和不同支系间受的选择压力均存在差异(既考虑位点间也考虑支系间的 ω 值存在差异),共有四个模型Model A、Model B、Model C和Model D,主要参数如下:
(1)Model A (Model 2, NSites=2, ncatG=ignored)
(2)Model B (Model 2, NSites=3, ncatG=ignored)
(3)Model C (Model 3, NSites=2, ncatG=ignored)
(4)Model D (Model 3, NSites=3, ncatG=2 or 3)
3、PAML branch model: 主要用于检测在某个分枝上,其omega值是否显著高于背景分枝,即基因在目标分枝上进化速度加快。该方法认为基因序列上所有位点的omega值是一致的,对两种模型进行比较:(1)第一种模型为null model,所有分枝具有相同的omega值;(2)第二种模型认为目标分枝具有一个omega值,其它所有分枝具有一个相同的omega值。比较两种模型的似然差异,利用卡方检验(自由度为1)算p值。若p值 <= 0.05,且目标分枝上的omega值高于背景值,则认为该基因为快速进化基因。一般情况下,该方法计算得到的p值会低于第二种方法的结果。
枝模型(Branch model)主要用于对系统发育树中不同支系 ω值差异性进行界定,主要有三个模型:
(1)One-ratio model:假设系统发育树中所有支系的 ω 值相等;
(2)Free-ratio model:假设系统发育树中所有支系的 ω 值不相等;
(3)Two-ratio model:假设前景枝和背景枝的ω 值不同;
4、 进化枝模型 (Clade Model):与枝位点模型类型,能同时检测多个进化枝(Clade),共有CmC和 CmD 两种模型,主要参数如下:
(1)CmC (Model 3, NSites=2, ncatG=2 or 3)
(2)CmD (Model 3, NSites=3, ncatG=ignored)
Branch-site model相比于site model的优点是考虑了不同的分枝具有不同的选择压,即具有不同的omega值。该方法让目标分枝具有一个不同的omega值,并没有让所有分枝的omega值独立进行计算(理论上这样是最好的)。这样算法很复杂,程序运行非常非常消耗时间。但其实也没必要这样做,因为正选择分析其实是两条序列比较后,分析dN/dS,再找正选择位点,其分析结果就应该是某个分枝上基因是否受到正选择,在序列那个位点上受到正选择。
若在目标分枝上,其omega值小于1,但是却能找到正选择位点。即该基因在该分枝上的dN/dS < 1,但是在某些位点上,dN/dS > 1。那么该基因是否属于正选择基因?我认为:属于。之所以为正选择基因,主要是因为基因的个别位点或多个位点存在正选择。当只有个别位点受到正选择压时,而其它多个位点存在纯化选择时,可能导致整体上的omega值小于1。此时,该基因也应该是属于正选择基因。
五、分析大致工作流简要如下:
(1)配置零假设模型和备选模型的参数(codeml.ctl);
(2)运行CodeML程序进行分析获得对应的LnL和np值;
(3)通过似然率检验(LRT)(卡方检验)获得p值确定零假设模型和备选模型之间是否存在差异;
(4)根据结果进行解读。
推荐使用图形界面软件pamlX
转自http://www.chenlianfu.com/?p=3084和http://blog.sciencenet.cn/blog-460481-1163040.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 18:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社