|
主要摘抄自樊龙江老师的《生物信息学札记》(第三版),略有删改。
比较基因组学是基因组学的重要分支,它是随着人类和其它生物基因组的大规模测序发展起来的新科学,现已成为研究生物基因组最重要的策略与手段之一。
与比较解剖学、比较组织学等学科一样,比较基因组学是遗传学的重要方法,特点是在整个基因组的层次上比较,如基因组的大小、基因数量的多少、特定基因的存在或缺失、基因(或标记序列片段)的位置及排列顺序、特定基因或片段的结构等等。而最重要,也是最体现比较基因组学科特点的是全基因组的核苷酸序列的整体比较。随着世界各国基因组计划的实施,包括人类基因组,许多模式生物基因组的测序已经完成或正在进行,如大肠杆菌、酵母、果蝇、线虫、小鼠、鱼、拟南芥等。美国的“食物基因组计划”几乎包括了所有重要作物——小麦、玉米、大豆、马铃薯、南瓜、棉花,而我国也进行了水稻、家蚕、微生物等基因组计划……这些基因组全序列数据将成为比较基因组的最基本研究对象。
认同所有生物的基因组都有共同的进化史,即进化上的共性是比较基因组学的理论依据,可以说,没有进化上的关系,就没有比较基因组学。进化是基因组比较的最重要主题,所以,进行基因组比较的生物信息学方法主要来自系统进化分析的一些方法,例如系统进化树的构建方法等。基因组比较急需发展针对整个基因组的专用算法。基因组是一种具有大尺度、巨量特点的研究对象,它有其特有问题,必须有特定的算法才能充分挖掘和利用基因组信息。
以下对基因组学分析中经常涉及的四个最基本概念进行介绍:
1 相似性:
相似性(similarity,有时也用analogy)就是简单比较得出的两者之间的相同程度。相似性本身的含义,并不要求进化起源是否同一、亲缘关系是否远近、甚至结构与功能有什么联系。不同基因组之间、不同基因或不同物种的“同一”基因,都可以用核苷酸(或氨基酸)的百分比来表示相似程度。
2 同源性:
同源性(homology)是具有严格定义的进化学词汇——在进化上起源同一。同源性可以用来描述染色体——“同源染色体”、基因——“同源基因”和基因组的一个片断——“同源片断”。
在进化上起源同一的两段核苷酸序列,特别是功能较重要的保守区断或基因,一般表现为相似。迄今有证据表明,同源基因在核苷酸(或氨基酸)序列上具有较高程度的相似性,这就带来了两个词的混用。如我们有时把“相似搜索(similarity searching)”说成是“同源搜索(homology searching)”。在比较两段序列时,正常的描述应该是:这两个片断可能同源(或这两个基因有可能为同源基因),因为它们的核苷酸(或氨基酸)的相似程度为80%。“80%同源”的说法是不正确的(还有20%不同源?),也是不符合事实与定义的。
相似性与同源性是两个不同的概念,相互之间并没有直接的等同关系。相似的基因不一定同源,因为在进化的过程中,来源不同的基因或序列由于不同的独立突变而“趋同”并不罕见;同源基因一般表现为相似,但不一定比非同源的相似程度要高。功能相似或相同也不一定必然同源。非同源基因的功能替换已有不少证据,其它表型相似也不一定反映同源,不同基因的不同突变就有可能产生“表型模拟”。
同源又有两种不同的情况,垂直方向的直系同源(orthology)与水平方向的旁系同源(paralogy)。
2.1 直系同源
直系同源(orthology)是比较基因组学中最重要的定义,其定义是:
(1)在进化上起源于同一个始祖基因并垂直传递(vertical descent);
(2)分布于两种或两种以上物种的基因组;
(3)功能高度保守乃至于近乎相同,甚至于在近缘物种中可以相互替换;
(4)结构相似;
(5)组织特异性与亚细胞分布相似。
在这些条件中,垂直传递和功能相同是最重要的。如多种抗药性基因在细菌、果蝇、河豚鱼、小鼠、人类的基因组中都存在,其结构相似,功能都与多种药物的抗性有关。直系同源基因的鉴定是比较基因组的研究线索和内容,是基因组进化的重要证据,对直系同源的定义与条件的掌握也甚为严格。鉴定直系同源的实际操作标准(practical criteria)为:
如基因组Ⅰ中的A基因与基因组Ⅱ中的A'基因被认为是直系同源,则要求:
(1)A'的产物比任何在基因组Ⅱ中所发现的其它基因产物都更相似于A产物;
(2)A'与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;
(3)A编码的蛋白与A'编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif)。
2.2 旁系同源
旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanistically related),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。在真细菌与古细菌的基因组中,30 %~50 %的基因属旁系同源,在真核基因组的比例更高。
如何从碱基序列中寻找目的基因
1. 基因及基因区域预测
在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组序列。这些序列中包含有许多未知的基因,将基因从这些序列中找出来是生物信息学的一个研究热点。
基因一词最早是由丹麦遗传学家约翰逊(Johannsen W.)于1909年提出,而在这之前,遗传学创始人孟德尔用“遗传因子”表达了对基因的朦胧认识。基因的概念随着遗传学、分子生物学等的发展而不断完善。从分子生物学角度看,基因是负载特定生物遗传信息的DNA分子片段,在一定条件下能够表达这种遗传信息,产生特定的生理功能。基因按其功能可分为结构基因和调控基因:结构基因可被转录形成mRNA,进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。在DNA链上,从起始密码子到终止密码子的连续编码序列称为开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,真核生物的大部分结构基因为断裂基因,即编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。
2. 基因功能预测
第一步:获取DNA目标序列
①如果你已有目标序列,可直接进入第二步;
②可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找目标序列。
第二步:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将DNA序列翻译成蛋白质序列。
第三步:在数据库中进行序列搜索
可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment)
虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于进一步加深目标序列的认识。
第五步:查找基因家族
进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行。
第六步:查找目标序列中的特定模序
①分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索;
②对蛋白质序列进行统计分析和有关预测。
第七步:预测目标序列结构
可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
第八步:获取相关蛋白质的功能信息
为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。
第九步:把目标序列输入“提醒”服务器
如果有与目标序列相似的新序列数据输入数据库,提醒(alert)服务会向你发出通知。可选用 Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-9 15:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社