||
没有基因就没有生命的繁衍,也就没有一切实体生命的存在。各种生物的基因组是一部部生物类群演化的史册,它记载了生物间的血脉关系与演化历程,昭示着生命的继承、承载与发展。因此,生命的演化映射于个体的基因组—种群的基因库—生命所有的基因集合这样一种极为复杂、多层次的遗传系统的相互关联与相互作用之中。
基因是控制生物性状的基本遗传单位,是携带有遗传信息的DNA序列,它是生命遗传系统的结构基础。大量的生物学家正在致力于以各种各样的(特别是模式)生物为对象通过基因及其功能的研究来解码生命,在微观的生命科学领域中取得了大量惊人的进展,但关于这些个别基因的信息细节不是本文的论述范畴。所谓基因组(genome)是指包含在一个生物体的一套染色体中完整的DNA序列(或全部遗传信息)。基因组包括基因和非编码DNA,它本质上是一套极为复杂的控制生命过程的操作系统,指挥生命活动(生长、发育、繁殖等)所有的遗传指令都匿藏于基因组之中。基因组还操控生命个体在各种生存环境中的复杂的响应与适应行为。
物种的进化必定是建立在基因组的进化之上,但两者是否完全等同或吻合?它们的演化轨迹是否完全一致?人们可否根据基因组的进化来透视物种的生态遗传学设计原理?
一、基因组大小—继承与随机的复杂化
1. 不太有章法的DNA—C值悖論
在每一种生物中,其单倍体基因组的DNA总量被称为C值 (C Value)。人们可能容易直观地人为,某种生物的基因组大小应该与其进化程度或复杂度正相关。但是大量的研究表明,物种的基因组大小与其在进化上所处地位的高低或复杂性没有绝对的相关性,这种现象称为C值悖論(C-ValueParadox)。
图1为各种类群生物的单倍体基因组大小,近似地,1 pg ≈十亿 bp (即1000 Mb or1 Gb),更准确地说,碱基对数=质量(pg)×0.978 × 109,或者质量(pg)=碱基对数1.022 × 10-9(Dolezel et al. 2003)。不难看出,基因组大小与进化程度并不怎么吻合,譬如肺鱼的基因组远大于哺乳动物,一些昆虫的基因组都能大于哺乳动物,而原生动物的基因组的变化范围最大,占据了所有生物最大基因组的位置(Gregory 2004)。
原生生物的基因组大小相差超过30万倍,动物基因组大小的差别也超过了3300倍,陆生植物相差约1000倍(Wikipedia)。
虽然一些类群的基因组变化巨大,但是从总的趋势来看,真核生物的基因组显著大于原核生物。虽然真核生物基因组大小的变异很大,但是从最小C值来看,一般进化程度越高的类群,群内最小C值越大。
图1 各种类群生物的单倍体基因组大小(“C-值”,pg)的范围(引自Gregory 2004)
2. 基因的进化—从朴素简洁到奢侈浪费?
随着人们对基因结构和功能认识的深入,人们将基因进一步区分为结构基因、调节基因和操纵基因:结构基因能为多肽链编码,调节基因能调节蛋白质的合成,而操纵基因为操纵结构基因的基因。
即便是结构基因也不一定全部由编码序列组成,有些在编码序列中间插入无编码作用的碱基序列,形成所谓断裂基因。一些基因的DNA序列包含两个区段:一个区段将被表达并存在于成熟的mRNA中,称为“外显子”,一个区段由虽然也同时被表达,但将在成熟mRNA中被删除,称为“内含子”。原核生物的基因序列一般是连续的,在一个基因的内部几乎不含“内含子”,而真核生物中绝大多数基因都是由不连续DNA序列组成的断裂基因。
基因组大小与编码蛋白的基因数目之间存在怎样的关系?Hou & Lin(2009)整理了各类生物的基因组及基因数目的资料,真核生物的基因组变化于373~3,175,581kbp之间,非真核生物(细菌、古菌、病毒、线粒体和叶绿体)的基因组变化于2.4~9950 kbp之间,因此真核生物的基因组远大于非真核生物的基因组。从图2不难看出,基因组与编码蛋白的基因数目之间存在显著的正相关关系,但是非真核生物和真核生物的直线回归方程的斜率不同,前者显著大于后者。由于每个基因组的编码蛋白的基因数一般与总基因数非常接近,用总基因数代替编码蛋白的基因数,类似与图2A的关系也完全成立。
图2 基因组大小与编码蛋白基因数目(A)或基因编码(构成基因的DNA部分)百分比(B)之间的关系(引自Hou & Lin 2009)
关于基因组大小与编码基因的DNA比例(%)之间的关系,在非真核生物中几乎就是一根平行的直线(除了一些细胞器的偏离值以外),而在真核生物中,则呈现明显的负相关关系(图2B)。具体来说,在真核生物中,随着基因组的增大,编码基因的DNA比例从81.6%下降到1.2%,而在非真核生物中,则保持较高的比例(97~47%),随基因组大小的变动幅度比真核生物显著地减小,只有细胞器基因组例外(Hou & Lin 2009)。仅从蛋白质生产的角度来看,原核生物的基因组似乎比真核生物更为高效。
人类基因组含有约30亿个DNA碱基对,曾估计可以形成10万个以上的基因,但事实上人类只有大约2~2.5万个基因,和老鼠相差无几(两者有99%的基因是相同的)。在人类基因组中,蛋白质编码序列(称为外显子)只占1.5%(图3),而其余均是不能编码蛋白质的序列!
看来,生物进化程度(等级)越高,非编码序列在基因组中的比重越大,譬如在微生物中,非编码区只占整个基因组序列的10%-20%,而在人类基因组中,这个比重高达98.5%!为什么高等生物的DNA会如此奢侈浪费?一些人称这些为“垃圾DNA”(junk DNA),认为这些序列大多数是演化的副产物,除了一些可能承载着重要的遗传信息外,多数可能已经没有什么作用了。
图3 人类基因组的组成:基因组中仅有约1.5%由严格的蛋白编码序列组成,而45%由各种类型的转座因子(浅灰色区域)构成,内含子占到26%,片段重复约占5%,数据源自International Human Genome Sequencing Consortium(2001)(Gregory 2005)
3. 基因的进化—继承与发展
蛋白质是基因的产物,是生命结构的基本材料。蛋白质的组成是基因组成的写照。从人类同源蛋白的分布可以看出,原核生物和真核生物共有的蛋白占到21%,动物和其它真核生物共有的蛋白占到32%,动物共有的蛋白占到24%,脊椎动物共有的蛋白占到22%(图4)。人类的很多基因起源自一些共同的祖先,但也包含了之后出现显著分化的基因。很明显,人类的基因组是继承和发展的产物,它留下了各种不同进化程度生物物种基因的烙印。这很类似于巴兰金(1988)的一种通俗说法:“比较古老的、原始的、粗糙的机构用各种新的部件进行补充,而在某种程度上又存在于后来的系统之内(例如我们保存着我们类人猿祖先或甚至单细胞祖先的很多品质)”。
有意思的是,一些基因的继承似乎也充满了很大的随机性。譬如,人类蛋白组中有223种蛋白与细菌的蛋白相似,而未能在酵母、线虫、果蝇、拟南芥以及任何其它(非无脊椎)真核生物中找到同源物。进一步的分析表明,人类基因组中至少有113个基因广泛分布于细菌,但在真核生物中仅出现于脊椎动物。很可能编码这些蛋白的基因曾经在早期的原核和真核生物中都出现过,但后来在酵母、线虫、果蝇、拟南芥以及可能还有其它非无脊椎真核生物种系中丢失了。或许还有一种可能的解释是这些基因通过细菌的水平转移进入了脊椎动物(或前脊椎动物)的种系(International Human Genome SequencingConsortium 2001)。
图4 人类同源蛋白的分布(引自International Human Genome SequencingConsortium 2001)
图5 真核生物蛋白组的功能分类(引自International Human Genome SequencingConsortium 2001)
生命界基因的这种传承性也能从动物胚胎发育模式中找到有力证据。早在18世纪,解剖学家就注意到相关种类的动物胚胎之间比它们的成体更为相似,譬如,人类胚胎的早期形态不仅与其它哺乳动物(狗、牛、鼠)胚胎的早期相似,而且在早期阶段甚至与爬行动物、两栖动物和鱼类的胚胎相似;成千上万种动物的胚胎结构有它们祖先的痕迹,但这些相同的结构在成体的生命形态中都没有。后来实验胚胎学家发现,这些具有祖先性状的胚胎结构起着胚胎“组织者”的作用,承接下一个阶段的发育,例如,如果切除一只两栖动物胚胎的前肾管,就不会发育出中肾,同样如果切除原肠顶端的条纹中线,就会阻止脊索和神经系统的发育,因此,“无用的”前肾和条纹中线之所以重演,是因为它们是后期结构发育的胚胎组织者(迈尔2008)。
二、基因组大小—折射物种的生理生态对策
1. 大的基因组—需要大的细胞来装填
早在一个多世纪以前,人们就注意到细胞核体积和细胞体积之间明显的正相关关系(Gulliver 1875)。基因组大小和细胞体积大小的关系可用一个极端的例子—图6来说明:这是同时显示的两种鱼的红细胞,肺鱼的核在物理上往暹罗斗鱼的细胞中装都没法装进去!20世纪50年代以来,人们认识到细胞体积是基因组变异的最普遍机制(Gregory 2005)。
在动物中,以脊椎动物的红细胞为材料的研究最多。Hardie and Hebert(2003)收集了230多种硬骨和软骨鱼类的资料,发现基因组大小与干红细胞面积之间存在很好的关系(图7A)。同样,根据Olmo and Morescalchi(1975, 1978)的数据,两栖类的基因组大小与干红细胞体积之间也存在显著的正相关关系(图7B)。类似的关系也存在于爬行动物、鸟类和哺乳动物(Gregory 2005)。
图6 经富尔根染色的暹罗斗鱼(Betta splendens, 2C= 1.3 pg)和澳大利亚肺鱼(Neoceratodusforsteri, 2C≈105 pg)的红细胞显微照片,后者的基因组要大约100倍。照片倍数 x 40,刻度=20 μm(引自Gregory 2001)
图7 脊椎动物红细胞大小与基因组大小之间的关系。(A)鱼类单倍体核DNA含量与干红细胞面积之间的关系:单倍体(●)和多倍体(○)辐鳍亚纲鱼类和软骨鱼类(▲)。(B)两栖动物干红细胞体积与基因组大小之间的关系:蛙(●)和蝾螈(○)(引自Gregory 2005)
2. 大的基因组—更费时间来完成细胞分裂
长期以来,人们就认识到细胞核体积、细胞体积以及细胞分裂周期之间存在密切的关系(Van’t Hof and Sparrow 1963)。一般来说,植物细胞基因组越大,其有丝分裂的周期就越长(图8)。类似的关系也见于被子植物的减数分裂期(Bennett, 1977)。一般会认为,DNA含量越高,合成需要更多的时间,因此细胞分裂周期也会延长。但是,也有报道发现,同一种植物的减数分裂期却随倍性(ploidy)的增加而下降(Bennett and Smith 1972)。
图8 在23°C生长的六种被子植物根尖细胞的DNA含量与最短有丝分裂周期之间的关系,数据源自Van’t Hof 和Sparrow(1963)(引自Gregory 2005)
生物个体的发育起决于细胞的分裂与生长,而这必定受到基因组大小的影响。一方面,基因组大小与细胞大小呈正相关,另一方面它又与分裂速度呈负相关关系(Gregory 2005)。那基因组大小对生物个体的发育到底有怎样的影响?
一般来说,大的基因组限制植物的发育速率。Bennett(1972)提出DNA含量可能限制植物最小世代时间(minimum generation time, MGT)(从萌发到最早的成熟种子的产生)的观点,为此,他收集了271个具有不同生活型以及不同MGT的被子植物的资料,比较了各种植物核DNA含量的平均值与范围。他将植物分为4种类型:1)短生植物(ephemerals):能在非常短的时期完成生活史(数周或更短),2)一年生植物(annuals):在52周内完成生活史,3)兼性多年生植物(facultative perennials):能潜在地在萌发52周内产生出可繁殖的种子,4)专性多年生植物(obligateperennials):需要52周以上产生成熟的种子。
核DNA含量(单个染色体):短生植物(1.5 pg)<一年生植物(7.0 pg)<多年生植物(24.6pg),最大DNA含量:短生植物(3.4pg)<一年生植物(27.6pg pg)<多年生植物(127.4pg)。一年生植物和兼性多年生植物的最大MGT都是52周,其DNA的平均值和范围都非常相似,均比专性多年生植物小得多。具有非常低DNA含量(如≤3.4 pg)的生活型既有短生植物,也有长寿的多年生植物。随着核DNA含量的增加,MGT增加,生活周期类型的范围减小,譬如超过3.4 pg以上,就没有短生植物,超过27.6pg,就没有一年生或兼性多年生植物,全为专性多年生植物(图9)。
图9 在温带环境中,DNA与最小世代时间(MGT)关系模型的图式。C1为短生植物的最大DNA含量,C2为一年生植物的最大DNA含量。Gregory(2005)绘自Bennett(1987)
4. 平均C-值—温带草本比热带草本大
早在1931年,Avdulov就注意到热带地区的草本具有小到中等大小的染色体,而凉爽的温带地区的多数草本具有较大的染色体。Levin and Funderberg(1979)通过对大量草本被子植物的分析发现,温带物种的平均1C值(6.8 pg)远高于热带物种(3.0 pg)。
Bennett(1976)通过对一些栽培的牧草、谷物或豆类等的基因组的分析发现,较大的基因组倾向于分布在温带或在那些接近于一般温带条件的低纬度地区或季节。在自然条件下基因组与纬度之间的这种正相关关系在栽培品种中受到了人类选种的强化或扩展。从图10可以看出,具有较大基因组的谷物种类其北限倾向较高纬度的地区,而基因组较小的种类其分布北限的纬度相对较低。
图10几种谷物的双倍体DNA含量与栽培北限之间的关系。○表示冬季从Hudson湾到弗罗里达西礁岛的断面(82°W),●表示夏季从北冰洋靠近Murmansk到黑海的Odessa的断面(大约32°E)。1. 黑麦,2. 小麦,3. 大麦,4. 燕麦,5. 玉米,6. 高粱,7. 稻(引自Bennett 1987)
三、基因变率—真核生物之间自发突变率相似,而诱发突变率完全不同
物种是在遗传与变异的过程中存在与发展,而基因的突变是自然界物种变异乃至新物种形成的重要驱动力。
1. 基因并不是一成不变的—既可以自发突变也可以诱发突变
突变则是指细胞中的遗传基因(一般指DNA或RNA中,还包括线粒体和叶绿体中的)发生的改变,包括单个碱基改变所引起的点突变,或多个碱基的缺失、重复和插入等。导致突变的动力可能是自发的(spontaneous),如细胞分裂时遗传基因的复制发生错误、或诱发的(induced),如源自非生物的因素—化学物质、辐射或其它侵入性生物—如病毒等。自发突变和诱发突变在对基因结构的改变上并没有本质的差别,只是诱变剂提高了基因的突变率而已。
早在DNA的双螺旋结构被揭示之前,一些科学家就用实验的手段证实了基因突变(自发的或诱发)的存在:Morgan(1910)首先在果蝇中发现了基因突变,他在许多红眼的野生型果蝇中偶然发现了一只白眼雄性果蝇, 并通过杂交试验证明是一个性连锁基因的突变;Muller(1927)和Stadler(1928)分别用X射线等在果蝇、玉米中最先诱发了突变;Luria和Delbrück(1943)最早在大肠杆菌中证明对噬菌体抗性的出现是基因突变的结果;Auerbach(1947)首次使用化学诱变剂—氮芥诱发了果蝇的突变。
突变既可以发生在体细胞(somatic cells),也可以发生在生殖细胞(germcells)(也称为性细胞或配子),前者不会传递到下一代,而后者是可遗传的,是遗传多样性和进化的基础。
突变类型可以从不同的角度来进行划分,如诱因(自发突变和诱发突变),染色体结构(缺失、重复、倒位和易位等),基因功能(失去功能的突变、次形态突变、超形态突变和获得功能的突变等),基因结构(点突变、沉默突变、错义突变、移码突变和无义突变等)。
2. 自发突变率—病毒最高,其它类群却惊人的相似
自发的基因突变在自然界的所有生物类群中都普遍存在,但速率一般很低,不仅不同物种之间可能存在差异,而且同一物种的不同基因之间也可能存在差异(Klug et al. 2012)。
1)基于表型变化的基因座突变率—病毒和细菌最低
突变率的准确估计其实相当困难,但常常可根据表型变化来估算基因座的突变率。所谓基因座指基因在染色体上所占的位置,一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。
譬如,针对控制小鼠皮毛颜色这样的单个基因座,已经知道其能明显地影响表型,突变率就是简单地用子代中异常的皮毛颜色除以被检查的子代的总数。但一个可能的偏差就是只有哪些能导致皮毛颜色改变的突变才被包括进来了,不是所有的突变都反应在皮毛颜色上,因此,所观察到的表型变化的频率不一定等同于基因座的突变率(Hamilto 2009)。
表1为根据表型变化估算的基因座的突变率。可以看出,病毒和细菌的突变率平均约为10-8(每个复制或分裂),而玉米、果蝇和人的生殖细胞的突变率要高2~3个数量级(10-6~10-5),有些小鼠基因则更高(10-5~10-4)(表1)。
当然,这里的突变率的单位对噬菌体为每个基因复制,对大肠杆菌为每个细胞分裂,而对玉米、黑腹果蝇、小鼠、人则为每个世代的每个配子。需要指出的是,高等动植物的世代时间比病毒和细菌要长得多!
表1 不同生物基因座的自发突变率
生物Organism | 特性Character | 基因座Locus | 速率Rate* |
噬菌体T2 Bacteriophage T2 | 溶菌抑制 | r→r+ | 1 x 10-8 |
| 宿主范围 | h+→h | 4 x 10-9 |
大肠杆菌 Escherichia coli | 乳酸发酵 | lac-→lac+ | 2 x 10-7 |
| 对链霉素敏感性 | shr-d→str-s | 1x 10-8 |
玉米 Zea mays | 瘪粒 | sh+→sh- | 1 x 10-6 |
| 紫皮 | pr+→pr- | 1 x 10-5 |
黑腹果蝇 Drosophila melanogaster | 体黄色 | y+→y | 1.2 x 10-6 |
| 眼白色 | w+→w | 4 x 10-5 |
小鼠 Mus musculus | 花毛 | s+→s | 3 x 10-5 |
| 棕毛 | b+→b | 8.5 x 10-4 |
人 Homo sapiens | 血友病 | h+→h | 2 x 10-5 |
| 亨廷顿舞蹈病 | Hu+→Hu | 5 x 10-6 |
*速率为每个基因复制(噬菌体)、每个细胞分裂(大肠杆菌)或每个世代的每个配子(玉米、黑腹果蝇、小鼠、人)
(引自Klug et al. 2012)
2)单位碱基对每次复制的突变率—病毒最高,其它类群相似
因为不同生物类群基因组大小差异很大,世代时间也差异很大。因此,如果能以每个碱基每次复制为单位对突变率进行比较,才有可能比较不同生物类群之间突变潜力的差异。
以基因组和碱基对每次分裂或每个(有性)世代统计的突变率显然有明显的差异:以每个基因组为单位的话,哺乳动物的突变率最高(0.16-0.49),无脊椎动物次之(0.018-0.058),微生物最低(0.0025-0.0046),但是基因组差异巨大。若以每个碱基对为单位的话,噬菌体的突变率变最高(7.2 x 10-7~7.7 x 10-8),其它生物则要低2~3个数量级,虽然十分接近(1.8 x 10-10~7.2 x 10-11)(表2)。此外,每次分裂每个碱基RNA病毒的突变率高达10−3~10−5(Drake etal. 1998)。因此,以每对碱基每次复制的突变率来比较,除了病毒的突变潜力最大外,其它生物类群却惊人的类似。
当然,不同的研究对同样的生物类群的结果也会出现一些差异,譬如Nachman和Crowell(2000)根据人和黑猩猩之间假基因分歧估算的值达到2.5 x 10-8,明显高于表2人的值。最近,根据人类全基因组测序估算的每个单倍体基因组的每个位点上(per position per haploidgenome)的突变率约为~1.1×10−8(Roach et al. 2010)。
从表3比较了单个核苷酸位点每次细胞分裂的突变率,除了人的生殖细胞系略低以外,小鼠、黑腹果蝇、秀丽隐杆线虫、拟南芥的生殖细胞系的突变率均在一个数量级,而且与酵母和大肠杆菌也在同一个数量级。
看来,不得不认为,除了病毒外,其它生物类群的自发突变率异常惊人的相似,无论这是由于一种什么样的驱动机制。
表2一些生物的单位基因组和单位碱基对的自发突变率
有机体Organism | 每次复制的突变率Mutation rate per replication | |
| 每个基因组Per genome | 每对碱基Per base pair |
基于DNA的微生物 |
|
|
噬菌体M13 Bacteriohage M13 | 0.0046 | 7.2 x 10-7 |
噬菌体λBacteriohageλ | 0.0036 | 7.7 x 10-8 |
噬菌体T2和T4 Bacteriophages T2 and T4 | 0.0040 | 2.4 x 10-8 |
大肠杆菌Escherichia coli | 0.0025 | 5.4 x 10-10 |
粗糙脉孢菌 Neurospora crassa | 0.0030 | 7.2 x 10-11 |
釀酒酵母 Saccharomyces cerevisiae | 0.0027 | 2.2 x 10-10 |
多细胞真核生物 Multicellular eukaryotes |
|
|
秀丽隐杆线虫 Caenorhabditis elegans | 0.018 | 2.3 x 10-10 |
果蝇Drosophila | 0.058 | 3.4 x 10-10 |
人Human | 0.49 | 1.8 x 10-10 |
小鼠Mouse | 0.16 | 5.0 x 10-10 |
(引自Drake et al. 1998, Hamilto 2009)
表3各种生物组织中每个核苷酸位点每次细胞分裂的突变速率(X 10-9)
物种Species | 组织Tissue | 突变速率 Mutation rate |
智人Homo sapiens | 生殖细胞系Germline | 0.06 |
| 视网膜Retina | 0.99 |
| 肠上皮细胞 Intestinal epithelium | 0.27 |
| 成纤维细胞(培养)Fibroblast (culture) | 1.34 |
| 淋巴细胞(培养) Lymphocytes (culture) | 1.47 |
小鼠Mus musculus | 雄性生殖细胞系Male germline | 0.97 |
黑腹果蝇 Drosophila melanogaster | 生殖细胞系 germline | 0.13 |
秀丽隐杆线虫 Caenorhabditis elegans | 生殖细胞系 germline | 0.62 |
拟南芥Arabidopsis thaliana | 生殖细胞系 germline | 0.16 |
釀酒酵母 Saccharomyces cerevisiae |
| 0.33 |
大肠杆菌Escherichia coli |
| 0.26 |
(引自Lynch 2010)
3. 诱发突变—基因组越大,对辐射的耐性越差
辐射是引起基因突变的重要物理因素,它可以发生于自然界,也可以在认为控制条件下实现。辐射甚至是农业科学家用来育种的一种重要手段。在地球上臭氧层形成之前,辐射被认为是阻止生命登陆的重要限制因子。
一些学者研究了基因组大小与辐射引起的基因突变率或对辐射的耐受性之间的关系。Abrahamson等(1973)报道,各种生物(酵母、脉孢菌、果蝇、小鼠、蕃茄和大麦)的单倍体基因组的DNA含量与单位辐射剂量(拉德)每个基因座的正向突变率之间存在显著的正相关关系,在对数刻度上,两者呈显著的直线关系(图11A)。Sparrow and Miksche(1961)发现植物细胞核的体积越大(因此DNA含量也越高),机体对放射性越敏感,在对数刻度上,两者也呈现很好的(负)直线关系(图11B)。
这表明,如果地球遭受突然的辐射袭击(无论何种原因),基因组大的复杂动植物可能最先遭受灭亡的厄运。
图11(A)每个基因座每拉德(辐射剂量)的正向突变率和1C DNA含量的关系;(B)23种植物的细胞核体积与辐射敏感性之间的关系(Gregory 2005)
四、基因组的历史演化—从原核生物的集中创造到真核生物的重复扩展
如果生命的演化及遗传物种具有传承性的话,那在现代生物的基因组中,一定会隐藏着古代生物地球化学事件留下的印记。从整个生命界来看,地球的演化见证了物种(无论是动物还是植物)的新城代谢,也见证了操控生命的基因的新陈代谢。
1. “太古代大爆发”—为构建能量模式的集中式基因创造
David 和 Alm(2011)建立了一个重构古基因组的新算法,考虑了横向基因转移的混淆效应以及系统发生上的不确定性,通过对现代生物的约10万个基因序列的分析,分析了地球历史上重大事件的遗传印记,包括开始于距今25亿多年前的氧含量的逐渐升高,以及发生在太古代的虽然短暂但却巨大的遗传多样性增加。
在太古代出现了一个短时期的遗传革新,与细菌的快速分化同步,诞生了27%的现代基因家族。基因功能的分析表明,在这一“太古代大爆发”中,新生的基因主要与电子传递及呼吸通路有关,大爆发之后出现的基因显示出与不断增加的分子氧、对氧化敏感的过渡金属及其化合物的利用有关,这与生物圈日益增加的氧化相一致(David & Alm 2011)。
图12 历史时期宏进化事件的速率,图示了每个世系的基因新生(红色)、基因复制(蓝色)、基因的水平转移(绿色)和基因丢失的平均速率(每个世系每1000万年发生的事件)。基因数增加的事件显示在图右边,基因丢失事件显示在左边。
已经存在于终极(现存所有生物)的共同祖先中的基因没有包括在基因新生速率的分析中,因为这些基因形成的时间还无从知晓(引自David &Alm 2011)
基因的新陈代谢包括基因新生、基因重复、基因丢失以及基因水平转移(HGT)等,基因历史变化的标志性事件:1)距今33.3-28.5亿年期间基因家族出现爆发诞生(称之为太古代大爆发);2)紧接着是距今大约31.0亿年前的基因丢失高峰,可能表明祖先基因组在对新的环境特化中其新进化出的基因的一种稳固化过程;3)在距今28.5亿年前开始,基因丢失速率和基因转移速率大致稳定在现在的水平;4)在太古代大爆发后,新基因家族诞生速率下降,而基因重复逐渐增加(图12)。
在现代几乎缺乏新基因家族的诞生可能反映了这样一个事实:即在该研究中没有考虑孤独基因家族(仅分布于单一基因组的基因家族),而这在所有的原核生物类群分布广泛。在现代基因组中,过多的基因重复和孤独基因表明两种来源的独特基因周转很快。虽然没有观察到“太古代大爆发”后水平基因转移速率的变化,但却在从a-紫细菌到古老的真核生物、以及从蓝细菌到植物中检测到HGT的过表达,HGT的这种模式可能反映了形成线粒体和叶绿体的内共生现象(David & Alm 2011)。
2. 基因组的功能演化—从生命的构建、到能量积蓄再到适应生物圈氧化
在“太古代大爆发”之前,与核苷酸相关酶的基因发生了强烈富集,而在“太古代大爆发”期间,基因的富集主要与微生物的呼吸和电子转移能力的扩展相关,这主要是为了建立更有效的能量保存通路以增加生物圈中可用的总自由能量(图13)。毫无疑问,能量是支撑后来日益复杂的生态系统,以及伴随而来的物种和遗传多样性扩张的重要基础。
氧利用基因的富集出现在“太古代大爆发”末期(图13),因此被确认为大爆炸一部分的最早的氧化还原相关基因可能曾被用于厌氧呼吸、或者产氧光合作用或不产氧光合作用,可能是后来才被用于耗氧呼吸通路的。代谢分析也支持“太古代大爆发”后生物圈不断氧化的观点,因为从大爆发至今,利用氧的蛋白质的比例一直不断增加(David & Alm 2011)。
图13在“太古代大爆炸”期间利用各种或各类代谢物的新生基因家族的数量与大爆炸前诞生的基因数量的比较,刻度为log2。代谢物在小于10%或5%的错误发现率下的显著富集分别用1个或2个星号表示(Fisher精确检验)。有颜色的方柱代表不同的功能或化合物类型(引自David &Alm 2011)
3. 真核生物基因组的进化速率—指数增加
从图1可以看出,不同物种之间基因组大小可相差数十万倍。为什么会有如此大的差异,甚至在同一生物类群(如原生动物)?而且,基因组大小与进化地位又没有很好的对应关系。如何来探讨基因组的进化速率?Oliver等(2007)研究了基因组进化速率与直系祖先基因组大小之间的关系。他们估算了20个传统上被认可的真核生物类群(包括168个物种)的基因组大小的进化速率,运用随机进化(Brownian evolution)概念和系统发育衬值方法(phylogenetic contrast method)研究了基因组大小进化的模式。
一般来说,基因组的进化速率取决于DNA的插入和缺失(简称indel),因此,基因组大小的进化速率取决于indel的速率以及随后种群的固定。虽然indel产生的机制多种多样,但是对DNA总量的影响可能与其初始基因组大小有关(譬如多倍化导致DNA的增加就与单倍体的基因组大小成比例),因此,有理由相信具有较大基因组的世系具有更快的基因组进化速率(Oliver et al. 2007)。
所谓系统发育衬值方法指运用局部最大似然估算(local maximum likelihood estimation),即根据顶端的表型特征(基因组大小)来估算在一个系统树(基于18S rDNA序列)中每个节点的特征值大小。而衬值是指每个节点的对向支之间基因组大小的数量差异,并根据对向支长度估算的进化距离进行标准化。这一标准化衬值的绝对值(absolute value of standardized contrast)是对基因组大小潜在进化速率的一种估算(基于从一个共同祖先的分枝),或者说是分化速率的绝对量值。
Oliver等(2007)首先进行了每个节点的基因组的最大似然估算以及在每个节点通过18S rDNA树和通过31-直系同源树所得的衬值的比较,然后将18S rDNA树区分为20个传统上被认可的分类亚树,确定每个亚树(代表类群)的基因组大小的中值和衬值中值。依据两种树的估算都表明,随着基因组大小的增加,基因组大小的进化速率也增加(图14)。此外,在20个真核生物类群的绝对衬值的中值和基因组大小的中值之间也存在清晰的正相关关系,呈现了类似的进化趋势(图15)。
因此,真核生物基因组大小的进化速率与基因组本身的大小成正比,即最大的基因组具有最快的进化速率,因为这种趋势在20个主要的真核生物进化枝中十分明显,因此,这种加速进化是真核生物基因组进化的优势与普遍模式。此外,这与真核生物物种的加速分化趋势相一致。
当然,这里的结果只依赖了168个真核生物的物种,仅为现存真核生物的万分之一。这种基因组的进化模式即便适合多数真核生物,但也不可能是普遍真理,因为还有成千上万的物种在生命演化的历程中出现明显的(结构)退化现象,退化过程中基因组是怎样的一种变化模式?难道它们只是作为垃圾基因保留所有这些控制退化了的结构或功能的基因?不否认存在这种可能,但似乎不会普遍。譬如,有报道称一类寄生真核生物—Microsporidia的基因组就减少了(Keeling& Fast 2002)。
图14节点估算的基因组大小与根据每个节点的18S rDNA树(黑点)和31-直系同源树计算的衬值(红点)之间的关系(引自Oliver et al. 2007)
图15 20个真核生物类群的绝对衬值的中值和基因组大小的中值(根据18S rDNA树)的分布。条线表示bootstrap法95%的信置区间(引自Oliver et al. 2007)
4. 基因和物种的新陈代谢—完全不同的轨迹和模式
不同的生命大爆炸—基因的大爆炸出现于太古代(距今28-33亿年),而物种的大爆炸出现于寒武纪(距今5亿年),详见第十三章。
在太古代的基因大爆炸期间,创造出了27%的现代基因家族。在寒武纪的物种大爆炸期间,地球上突然涌现出各种各样的动物门类,空前繁荣。
出乎意料的是,基因的新陈代谢与物种的新陈代谢呈现出了完全不同的轨迹。很显然,在地球上生命诞生的最初的几亿年,原核生物完成了迄今为止几乎所有生命都不可或缺的若干核心生命功能(如遗传、能量利用、氧化还原等)相关的基因的创造。之后,基因的新生逐渐衰退,基因的重复(可能随着多细胞真核生物的繁荣)日益增加。毋庸置疑,原核生命创造并给予了真核生命生存的遗传基础,像叶绿体、线粒体等不就是从原核生物“借”来的吗?
显然,寒武纪以来真核生物的繁荣并不是建立在新基因家族的创新之上,而更像是以原核生物创造出来的关键基因为基础,加上一些修修补补,像“积木”游戏一般拼装出了五颜六色、奇形怪状的各式各样的新物种。这种通过基因拼接式来创造新物种的方式可能是有性生殖(特别是减数分裂)的必然产物。
令人惊讶不已的是,生命的宏基因组(这里指所有物种基因的总和)对寒武纪以来的数次物种的大爆发或大灭绝几乎没有明显响应,这难道是在昭示生命的宏基因库对现今的地球环境波动(包括灾变)具有强大的缓冲能力?
我十分欣赏巴兰金(1988)的感叹:“我们被由分子串编成的DNA螺旋体所迷惑。微观世界在我们的眼睛里占据了整个视野,在照片和图表上变成了一大堆骇人听闻的巨型离子、电子气泡和晶体栅格。它用自己的各种难题束缚了我们的思想,遮住了我们用肉眼就能看到的普遍世界,甚至遮住了我们的研究和想像能够理解的更加宽广的各个世界,遮住了存在着地质图、太阳、生物圈和生命物质的那些世界”。从本章开始,笔者正是要将基因(DNA)代表的微观世界通过生命的生殖与生存这条核心的灵魂主线与包括生物圈在内的宏观世界在时空尺度、格局、过程等方面进行理性而逻辑的对接与融合,以揭示生命世界最为重要的特质—“性”的起源、发展与进化的本质。
五、结语
基因匿藏了生命无限的奥妙与神秘,它是一切生命的核心与灵魂,指挥与操控着一切生命的生长、行为、发育与繁衍等,也是生命区别于一切非生命世界的本质所在。生命的进化必定构筑在基因组进化的基础之上。
基因组进化的宏观趋势是从简单到复杂,继承与发展的同时,从朴素简洁变得有些奢侈浪费(存在大量‘垃圾’DNA)。基因组大型化和复杂化的结果导致细胞大型化、延长细胞分裂周期与生命周期。真核生物之间自发突变率大致相似,而基因组越大,对辐射的耐性越差。
令人震惊的是,基因的创造与物种的创造演绎了完全不同的轨迹或模式,原核生命通过太古代(30多亿年前)时期的集中式基因创新,逐步完成了生命构建、能量利用以及适应氧化等一系列支撑基础生命活动的基因家族,才迎来了5亿多年前真核生物物种的大爆发,而现代基因组中出现了过多的基因重复和孤独基因。基因组的演化也与真核生物通过有性生殖进行基因重组、堆积与修补创新的进化模式相吻合。
主要来源:
谢平. 2013. 从生态学透视生命系统的设计、运作与演化—生态、遗传和进化通过生殖的融合. 北京:科学出版社
(英文:Xie P. 2013. ScalingEcology to Understand Natural Design of Life Systems and Their Operations andEvolutions – Integration of Ecology, Genetics and Evolution through Reproduction. Beijing: Science Press)
引述该博文的相关内容时,请引用该专著。
电子版下载:http://wetland.ihb.cas.cn/lwycbw/qt/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 15:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社