||
Ka/Ks分析是生物信息学常见分析之一,它在研究核酸分子进化方面有重要应用。计算Ka/Ks的意义在于理解蛋白编码序列的亲缘关系,重建系统发育,分析选择压力,是基因家族分析中十分重要的一部分。
什么是Ka/Ks?
在遗传学中,Ka/Ks表示的是两个蛋白编码基因的非同义替换率(Nonsynonymous substitution rate,Ka)和同义替换率(Synonymous substitution rate,Ks)之间的比值。通过这个指标可以判断是否有选择压力作用于这个蛋白质编码基因。
举例来说,如果手头有两个不同物种的同一个基因的序列,比如人和小鼠的p53基因,将这两个基因的序列进行比对,你会发现这两段序列有差异(进化!)。再仔细观察,你会发现有些碱基的变化导致了编码氨基酸的变化(非同义替换),有些没有导致编码氨基酸的变化(同义替换)。这是由密码子的简并性造成的,因为3个碱基决定1个氨基酸,而64种碱基组合决定20种氨基酸,所以会有冗余出现。一般情况下,第三个碱基变化会造成同义替换,而第一、第二个碱基的变化会造成非同义替换。
Ka和Ks的计算公式:
Ka = 非同义替换SNP数/非同义替换位点数, 即非同义替换率
Ks = 同义替换SNP数/同义替换位点数, 即同义替换率
其中,非同义替换位点数就是会造成氨基酸变化的位点数的总和,比如编码丝氨酸(Ser)的第一二位碱基。而同义替换位点数就是不会造成氨基酸变化的位点数的总和,比如编码丝氨酸的第三位碱基。对于像第一个方框里面的苯丙氨酸(Phe)和亮氨酸(Leu)这种情况,第三位碱基的变化有50%的可能造成氨基酸的变化,则在计算非同义替换位点数和同义替换位点数时,各计为0.5,相当于平分这一位点。另外,计算Ka/Ks时,不考虑start codon和stop codon。
好了,现在回到上面的人和小鼠的p53基因的例子。我们只需要数一下两个序列发生(非)同义替换的SNP数,再除以总的可替换位点数,就得到了Ka和Ks值,继而得到两者的比值。
原理似乎很简单,然而,实际计算并不简单。
上面的计算方法没有考虑不同碱基之间替换速率的不同。比如,嘌呤之间替换的概率(A→G)要高于嘌呤替换为嘧啶的概率(A→C/T),也就是说转换(transition,嘌呤变嘌呤,嘧啶变嘧啶)发生的概率要高于颠换(transversion,嘌呤变嘧啶,嘧啶变嘌呤)发生的概率。很多计算方法都会考虑到这些替换发生概率的不同。
另外,如果两个物种的分化时间较长,情况更为复杂,可能会影响Ka/Ks的比值。比如有一个位点,原来是A,后来变成T,再后来又变成C,虽然发生了两次替换,但仅有一次被用于计算替换率。再比如有一个位点,原来是A,后来变成T,但同时与它相对应的另一个序列的位点,也发生了A到T的替换,那么我们也无法用上面的方法来计算替换率。对于这些复杂情况,我们可以用最大似然法来计算替换率,这里不再详述。
Ka/Ks和进化有什么关系?
如果一个基因没有受到自然选择压力,那么根据中性选择理论,非同义替换率和同义替换率应该是相同的。一般来讲,因为非同义替换会造成氨基酸变化,可能会改变蛋白质的构象和功能,因此会造成适应性的变化,从而带来自然选择的优势或劣势(一般是劣势)。而同义替换没有改变蛋白质的组成,因此不受自然选择的影响(这里我们忽略密码子偏好性的影响)。总之,ks能够反映进化过程的背景碱基替换率,而Ka/Ks的比值能够说明这个基因受到了何种选择。
长颈鹿的长脖子基因肯定是受到了正选择……
一般情况下,在某个体中偶然发生的一个碱基替换(突变),如果没有额外的好处或者坏处的话,慢慢地也就消失了。但是在自然选择中会有很多巧合,某些突变就很幸运地被保留了下来,并且被固定了(突变频率由极小变为100%)。一个这样的突变在二倍体种群中被固定的可能性为1/2N,其中N是种群大小。在这种情况下,非同义突变被固定下来的可能性与同义突变的可能性相同。也就是说,在没有受到自然选择压力的情况下,基因的Ka/Ks比值接近1。
小鼠和大鼠的835个直系同源基因的Ka/Ks比值的频率分布
但实际上,这个比值远小于1,因为一般非同义替换带来的都是有害的性状,不能被固定下来。但好消息是,某些具有特殊功能的基因处于强烈的选择压力之下,例如某些与病原共同进化的免疫基因,它们的某些结构域的Ka/Ks比值很可能远大于1,这就给我们提供了一种启示。
于是,我们有了下面的分类:
Ka/Ks>1,基因受到正选择(positive selection)
Ka/Ks=1,基因中性进化(neutral evolution)
Ka/Ks<1,基因受到纯化选择(purify selection)
Ka/Ks比值能做啥?
人和黑猩猩的基因组只有约1.09%差异,染色体的数目及形态几乎没有变化,但是仔细去看的话,会发现很多染色体片段的重排,也就是重新洗牌。2003年发表在Science的一篇研究发现,发生重排部位的基因,受到正选择(Ka/Ks>1)的比例要显著高于没有发生重排部位的基因,这说明染色体重排与基因功能的分化密切相关,也与人和黑猩猩的分化密切相关。
人和黑猩猩染色体非重排部位(Colinear)和重排部位(Rearranged)基因的Ka/Ks分布。红色线条为Ka/Ks=1的分界线。重排部位基因受到正选择的比例更高。
当Ka/Ks>1时,基因受到强烈正选择,这样的基因即为近期正在快速进化的基因,对于物种的进化有着非常重要的意义。我们可以根据Ka/Ks比值筛选部分基因,然后做后期的功能研究,这种方法已经被普遍应用到分子进化研究领域。
除了查找快速进化基因,Ka/Ks还能用于检测基因的功能性,因为假基因(pseudogene)的Ka/Ks比值通常比功能基因更高(大家想想为什么?)。此外,Ks代表进化过程的背景碱基替换率,可用来反推事件发生的时间,如全基因组多倍化的时间,这在探究物种起源方面有重要应用。
相关文献:
Hurst L. D. (2002). The Ka/Ks ratio: diagnosing the form of sequence evolution. Trends in genetics, 18(9), 486.
Navarro, A., & Barton, N. H. (2003). Chromosomal speciation and molecular divergence -- accelerated evolution in rearranged chromosomes. Science, 300(5617), 321–324.
北大教授顾红雅老师的公开课:生物演化http://www.chinesemooc.org/live/611219
参考:
1. 搜狐https://www.sohu.com/a/204503028_761120
2. 知乎https://zhuanlan.zhihu.com/p/105910386?ivk_sa=1024320u
3. 360个人图书馆http://www.360doc.com/content/19/1112/07/19913717_872553965.shtml
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 09:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社