|
每一种生物中其单倍体基因组的DNA总量被称为C值(C value),每个物种的基因组大小不同,就会有不同的C值,C值悖论( C value paradox),简单来说,指的就是在真核生物中基因组的大小和生物的复杂程度不相关的一系列现象,我们以为细菌的基因组大小就应该比酵母的小,酵母的基因组就应该比果蝇的小,但事实却跟我们纯真的期望有很大的出入,有时候一些单细胞生物的基因组竟然要比人类的基因组还大。
C值的叫法也许来源于法语单词“守恒”(constant)或者也可能是“特征性”(caractéristique),我本来想查一下到底是哪个,但因为人家的文章是用法语写的,我这种“法盲”就只好作罢。
C值悖论是由好几个问题组成的,第一个问题,对于一个特定的物种,它需要编码的蛋白质虽然很多,但是跟它本身的基因组大小比起来,还是太小了。拿人来说,一个基因平均长度一般也就一两万个碱基对,而人一共有大约两万个基因。如果要编码两万个基因的话,只需要几亿个碱基对就够了,但是人却有三十亿个碱基对,那么剩下的碱基对是什么作用呢?什么,调控,但是调控真的需要这么多碱基对吗?
C值悖论里的另外一个问题,就是文章开头提到的,基因组大小和生物体的复杂度貌似没有太大的关系。如果我们将每个门(phylum)的所有物种里基因组最小的那个拿出来单独比较的话,倒是与物种的复杂度有一点点相关,但是特殊的例子也有不少。原核生物因为结构简单,基因组一般很小,一般来说在2MB左右,但有些物种的基因组还是会大得离谱,如果把人类算是最高级的物种的话,那么只有三十亿个碱基对的人类和有五十亿个碱基对的玉米比起来就没什么可炫耀的了。现在知道的最大的基因组为百合科的四倍体贝母,全基因组有120亿个碱基对,但是这些碱基对都派上用场了吗?
第二个问题的貌似可以从第一个问题里得到答案,既然有很多不编码的碱基对,那么除去这些碱基对后剩下的碱基对个数是不是就跟物种的复杂度成正比了呢,答案也是否定的。事实上某个基因在一个物种里的出现次数也许不止一次,非常有可能的情况是一个基因或者一段核苷酸序列会在这个物种进化的历程中被复制成千上万次而且被保留了下来。这种基因的冗余也是一个进化上难以解释的问题,我的理解是基因在基因组中的重复会提高编码相应蛋白质的能力,在物种(尤其是植物)在遇到极端的环境时,或者只是单单在竞争压力下,那些对繁殖有利的基因就倾向于大量复制使物种存活。我还记得有一种转座子,可以自我复制,但是这种机制和进化貌似联系又不是很大了。。(欢迎拍砖,这里我不是太懂 :D)
或者,既然编码蛋白质的碱基对个数对于衡量物种复杂度来说不是一个很有信息量和代表性的参数(因为每个基因的碱基对个数也有差别),那么基因的个数和物种复杂度的拟合是不是更好呢?答案是肯定的,但是这种拟合还远远没有达到完美。暂且不提基因组大小并不和在基因组中包含的基因个数成正比,基因组倒是有大有小,但是物种之间基因的个数差别却不大,下面这个表可以看出几种生物之间的差距:
基因组大小(MB) | 基因个数 | |
大肠杆菌 | 4.6 | 4400 |
酿酒酵母 | 12.1 | 5800 |
线虫 | 97 | 19000 |
果蝇 | 180 | 13600 |
人 | 3300 | 22000 |
拟南芥 | 125 | 26000 |
水稻 | 430 | 50000 |
有人提出基因组里包含的‘信息量’或许才能真正解释物种复杂度不同的现象,但是对基因组中‘信息量’的定义也是莫衷一是。基因的数量,可能的翻译后修饰次数,蛋白质结构功能复杂度,蛋白质复合物的出现频率等等都对‘信息量’的大小有贡献,如何权衡仍旧是问题。或许,物种的复杂度并不需要用‘信息量’来拟合(毕竟几十万年前拟南芥的基因组和现在的也是不一样的),相反,物种复杂度可以作为预测基因数量的一个指标。新的问题来了,如何准确定义和衡量物种的复杂度呢?
杜克大学的MatthewW.H.和Gregory A.W.在2002年发表的 The G-value paradox写得很好,实际上我也是借鉴了他们的思想,有兴趣的可以看一下 :D
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 11:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社