|
PAML 的 codeml 程序有一个关于密码子频率 (CodonFreq) 的参数的选项为
0: Fequal
1: F1X4
2: F3X4
3: F61 (codon table)
那么,这几个模型都是什么样的模型,这里的 1, 3, X, 4, 61 分别是什么意思?
我尝试了通过 Google 找这个模型的解释,但找到的只是 PAML 的 Manual,而 PAML 的 Manual 对此并没有详细的解释。然后我通过 Google Scholar 去找,也没有很好的结果。后来我在杨子恒老师《计算分子进化》这本书上看到了相关的描述。
Fequal 模型:具有均等的密码子使用频率,即所有的密码子的频率都为 1/61
F1X4 模型:用4个核苷酸频率来计算密码子期望频率(采用3个自由参数)
F3X4 模型:用 3 个密码子位置上的核苷酸频率来计算密码子频率(9个自由参数)
F61 模型:所有 61 个密码子频率都用作为自由参数(其实只有 60 个自由参数,因为总和为1)
这里之所以讲 61 个密码子是剔除了终止密码子的。
这几句话虽然写得清楚,但我还是看了半天才明白都是什么意思,主要的困难在于 3 个自由参数、9 个自由参数是什么意思。
对于F1X4 而言,需要预设四个核苷酸(A, T, C, G)的使用频率,然后根据这四个使用频率计算密码子的使用频率,比如四个核苷酸的使用频率分别为 freq(A), freq(T), freq(C), freq(G),那么
freq(A) + freq(T) + freq(C) + freq(G) = 1
因为这个等式中只要知道三个核苷酸的频率,即可计算出第四个核苷酸的频率,所以说自由参数为3个(自由度 = 3)。
任意密码子的频率为其组成核苷酸频率的乘积,即
freq(CTA) = freq(C) * freq(T) * freq(A)
freq(CTT) = freq(C) * freq(T) * freq(T)
...
剔除三个终止密码子后 61 个密码子的频率相加 freq(Sum_of_61_codons) < 1,因为还要做进一步的矫正,即
f(CTA) = freq(CTA) / freq(61codons)
f(CTT) = freq(CTT) / freq(61codons)
...
同样的情况,对于F3X4 而言,假设三联密码子各个位置的频率核苷酸频率是不一样。例如,对于密码 TTT,其第一个 T、第二个 T 和 第三个 T 的频率都是不一样的。对于这种情况,需要预先计算各个位置的核苷酸频率,即
密码子的第一个位置:freq1(A) + freq1(T) + freq1(C) + freq1(G) = 1
密码子的第二个位置:freq2(A) + freq2(T) + freq2(C) + freq2(G) = 1
密码子的第三个位置:freq3(A) + freq3(T) + freq3(C) + freq3(G) = 1
对于这三个等式,只要已知各等式的三个参数,即可计算出各等式的第四个参数,也就是说有 3 x 3 = 9 个自由参数 (自由度 = 9)。
通过上述 3 x 4 = 12 个核苷酸频率,可以利用如 F1X4 的方法,计算出所有 61 个密码子的使用频率。例如
f(CTA) = freq1(C) * freq2(T) * freq3(A) / freq(Sum_of_61_codons)
f(CTT) = freq1(C) * freq2(T) * freq3(T) / freq(Sum_of_61_codons)
...
至此,我们明白了,1X4,3X4和 61 的意思是指计算出 61 密码子使用频率需要已知的核苷酸或密码子频率,即 F1X4 需要已知 4 个核苷酸的使用频率,F3X4 需要已知 12 个核苷酸使用频率,而 F61 需要已知 61 个密码子的使用频率。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-3 08:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社