李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

密码子模型 Fequal, F1X4, F3X4 和 F61 是什么意思

已有 4530 次阅读 2017-6-10 18:03 |系统分类:科研笔记

PAML 的 codeml 程序有一个关于密码子频率 (CodonFreq) 的参数的选项为

0: Fequal

1: F1X4

2: F3X4

3: F61 (codon table)

那么,这几个模型都是什么样的模型,这里的 1, 3, X, 4, 61 分别是什么意思?


我尝试了通过 Google 找这个模型的解释,但找到的只是 PAML 的 Manual,而 PAML 的 Manual 对此并没有详细的解释。然后我通过 Google Scholar 去找,也没有很好的结果。后来我在杨子恒老师《计算分子进化》这本书上看到了相关的描述。

   Fequal 模型:具有均等的密码子使用频率,即所有的密码子的频率都为 1/61

   F1X4 模型:用4个核苷酸频率来计算密码子期望频率(采用3个自由参数)  

   F3X4 模型:用 3 个密码子位置上的核苷酸频率来计算密码子频率(9个自由参数)

   F61 模型:所有 61 个密码子频率都用作为自由参数(其实只有 60 个自由参数,因为总和为1)

这里之所以讲 61 个密码子是剔除了终止密码子的。


这几句话虽然写得清楚,但我还是看了半天才明白都是什么意思,主要的困难在于 3 个自由参数、9 个自由参数是什么意思。


对于F1X4 而言,需要预设四个核苷酸(A, T, C, G)的使用频率,然后根据这四个使用频率计算密码子的使用频率,比如四个核苷酸的使用频率分别为 freq(A), freq(T), freq(C), freq(G),那么

freq(A) + freq(T) + freq(C) + freq(G) = 1

因为这个等式中只要知道三个核苷酸的频率,即可计算出第四个核苷酸的频率,所以说自由参数为3个(自由度  = 3)。

任意密码子的频率为其组成核苷酸频率的乘积,即

freq(CTA) = freq(C) * freq(T) * freq(A)

freq(CTT) = freq(C) * freq(T) * freq(T)

...

剔除三个终止密码子后 61 个密码子的频率相加 freq(Sum_of_61_codons) < 1,因为还要做进一步的矫正,即

f(CTA) = freq(CTA) / freq(61codons)

f(CTT) = freq(CTT) / freq(61codons)

...


同样的情况,对于F3X4 而言,假设三联密码子各个位置的频率核苷酸频率是不一样。例如,对于密码 TTT,其第一个 T、第二个 T 和 第三个 T 的频率都是不一样的。对于这种情况,需要预先计算各个位置的核苷酸频率,即

密码子的第一个位置:freq1(A) + freq1(T) + freq1(C) + freq1(G) = 1

密码子的第二个位置:freq2(A) + freq2(T) + freq2(C) + freq2(G) = 1

密码子的第三个位置:freq3(A) + freq3(T) + freq3(C) + freq3(G) = 1

对于这三个等式,只要已知各等式的三个参数,即可计算出各等式的第四个参数,也就是说有 3 x 3 = 9 个自由参数 (自由度 = 9)。

通过上述 3 x 4 = 12 个核苷酸频率,可以利用如 F1X4 的方法,计算出所有 61 个密码子的使用频率。例如

f(CTA) = freq1(C) * freq2(T) * freq3(A) / freq(Sum_of_61_codons)

f(CTT) = freq1(C) * freq2(T) * freq3(T) / freq(Sum_of_61_codons)

...


至此,我们明白了,1X4,3X4和 61 的意思是指计算出 61 密码子使用频率需要已知的核苷酸或密码子频率,即 F1X4 需要已知 4 个核苷酸的使用频率,F3X4 需要已知 12 个核苷酸使用频率,而 F61 需要已知 61 个密码子的使用频率。



https://blog.sciencenet.cn/blog-656335-1060049.html

上一篇:两个 .gz 文件是否可以直接合并
下一篇:raxmlHPC-HYBRID-SSE3 使用笔记
收藏 IP: 223.166.231.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 17:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部