龙五?龙舞!分享 http://blog.sciencenet.cn/u/DaCaiNiao 行踪常在云霄外,天下英豪我第一

博文

莱尔的P值大奖:没头脑与不高兴【2】

已有 4186 次阅读 2015-7-23 17:39 |系统分类:观点评述

在接着写正式内容之前,咱先讲讲上一篇里那道生信题或者统计题的由来。话说去年2月底李小文先生写了篇博文《CY呼唤肖子:蕾丝短裤之谜》,讲的什么事儿可参见小文先生的原文,总之这个故事最后就成了一道统计题,需要用贝叶斯来解决。咱当时半夜无心睡眠,看的手痒,于是花几分钟给做了。后来因为要给学生开课讲贝叶斯,觉得这是个很好的例子,于是在课件里加了一页,作为同学们的课后作业,如下图。由于小文先生年初驾鹤仙游,所以这里也深切缅怀。


 

======================================================

(接上篇)这样第二个问题就来了:复制出来的基因,跟原来已有的基因,在功能上有什么关系?生命是很经济的系统,两个不同的基因不会具有完全相同的功能,若功能相同,则其中一个会很快变成假基因(Pseudogene)不再表达。因此,上世纪70年代日裔遗传与进化生物学家大野乾(Susumu Ohno)提出了“新功能形成”(Neofunctionalization)的观点,认为基因复制后,两个基因中的一个会演化出新的功能,而另一个功能不变。因此演化出新功能的基因,理论上进化速率就会加快,而功能不变的基因,进化速率则较低。与这个理论相对的另一种观点是“亚功能形成”(Subfunctionalization),认为基因复制后,两个基因会分别演化,并各自保留原基因的部分功能,由于受到选择压力,因此两个基因的进化速率都会加快。这两个模型描述为:

“新功能形成”:Ohno one-gene-only speeds-up (OS) model,一个基因功能不变从而进化慢,另一个需要产生新功能从而进化快;

“亚功能形成”:Both-genes speed-up (BS) model,两个基因都只保留原有基因的部分功能,因此进化速率都快。

 

因此第三个问题是:如何估算复制基因分别的进化速率?这篇论文建立了一套计算方法,如下图。


 

 

已知酵母属的两个种S. cerevisiae(酿酒酵母)和S. bayanus(贝克酵母),是由K. waltii(克鲁雄酵母)通过基因组复制之后,分别进化形成的。因此若有基因发生复制,则在克鲁雄酵母中只有一个(例如图中的ORC1/SIR3,这是一个基因),而在酿酒酵母和贝克酵母中都有两个。因此如果基因复制符合“新功能形成”的OS模型,则其中一个基因进化速率快,而另一个基因进化速率与原来的基因大致相同。例如图中所示的例子就是符合OS模型。如果基因复制符合“亚功能形成”的BS模型,那么应该看到两个酵母属的ORC1SIR3都比克鲁雄酵母中的原基因ORC1/SIR3进化速率明显快。因此这篇论文要解决的、第四个问题是:从基因组层面来看,复制基因的功能进化究竟倾向于“新功能形成”(OS模型),还是“亚功能形成”(BS模型)? 

这样莱尔的问题就来了:作者在文章中四次用到“Strikingly”这个单词,其中前三次分别为:

1. 第一页,摘要和介绍部分。“显著地,基因对中只有一个基因加速进化的事件占到95%,这为一个特定的进化模型(即OS模型)提供了强证,并允许我们区分原有的和分化的功能”(Strikingly, 95% of casesof accelerated evolution involve only one member of a gene pair, providingstrong support for a specific model of evolution, and allowing us to distinguish ancestral and derived functions.)这句话在第一页的介绍部分又重复出现了一次。

2. 第五页,原有的和分化的功能(Ancestral and derived functions)这一小节。“显著地,几乎每一个事件(95%),加速进化都仅仅发生在一对基因(旁系同源)的其中之一。着强烈的支持了一个基因保留原有的功能而另一个基因不受选择限制从而加速进化的模型(还是OS模型)”(Strikingly, in nearly every case (95%), accelerated evolution was confined to only one of the two paralogues. This strongly supports the model in which one of the paralogues retained an ancestral function while the other, relieved of this selective constraint, was free to evolve more rapidly. 

Strikingly”这个词不是想用就可以用的,既然用了就表明至少从统计上来说,结果一定具有显著性。既然做统计检验,就要有明确的“空假设”(H0, null hypothesis or null model),并且需要计算p-value,一般约定俗成的惯例是p-value < 0.05或者p-value <<0.05,即可认为统计检验是显著的。莱尔总结了这篇文章的结果,描述如下:

“作者鉴定了酵母中457对通过全基因组复制产生的复制基因对(总共914个基因)。在酿酒酵母中,其中76对有加速进化的现象。“加速进化”在文中的定义指的是酿酒酵母里氨基酸替代率要比克鲁雄酵母里高50%。在76对有加速进化的复制基因对里,其中只有4对是两个基因都加速进化。因此基因对里只有一个加速进化的为72个基因(72/76=95%)。”(The authors identified 457 duplicated gene pairs that arose by whole genome duplication (for a total of 914 genes) in yeast. Of the 457 pairs 76 showed accelerated (protein) evolutionin S. cerevisiae. The term “accelerated” was defined to relate to amino acidsubstitution rates in S. cerevisiae, which were required to be 50% faster than those in another yeast species, K. waltii. Of the 76 genes, only four pairs were accelerated in both paralogs. Therefore 72 gene pairs showed acceleration in only one paralog (72/76 = 95%).

莱尔的问题是:(1) 根据上述的结果,其空假设应该是什么样的?(2) 有了空假设和备择假设(H1,alternative hypothesis/model),究竟应该怎样算p-value(3) 根据你计算得到的p-value,尝试解释为什么这篇文章20031217日投稿,而2004119日即接收。

为此莱尔设置了P值大奖,奖金为$100/p-value。也就是说,计算的p-value越小,奖金额度越高,时间截止到67日晚。这里我们简述问题为:

P值大奖457对复制基因对共914个基因,其中76对中存在加速进化,并且72对中只有一个基因加速进化,4对中两个基因都加速进化。这个结果用统计学如何描述?使用哪种统计方法做检验?p-value应该是多少?(未完待续)



http://blog.sciencenet.cn/blog-404304-907636.html

上一篇:莱尔的P值大奖:没头脑与不高兴【1】
下一篇:莱尔的P值大奖:没头脑与不高兴【3】

6 曹聪 金耀初 庞晓明 胡想顺 魏焱明 dachong99

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-6-14 16:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部