chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

对基因组的认知过程:从遗传图谱、物理图谱到基因组图谱

已有 14525 次阅读 2020-4-20 21:47 |系统分类:科研笔记

以下摘抄自樊龙江老师的《生物信息学札记》(第三版),略有删改。

基因组测序是涉及DNA的大规模测序,是一项如同“曼哈顿登月计划”的庞大工程,是人类冲破重重技术障碍取得的又一次巨大进步。根据当时的技术水平,人类还无法对基因组这样的复杂DNA大分子直接进行测序,只能采取分而治之的测序策略,即将基因组DNA分割成一定大小的片段,然后分别对这些片段进行测序。这样便产生了一个问题:如何将这些片段准确地拼接起来?每次测序反应只能测定500 bp左右长度的DNA片段,而一条染色体的长度对于500 bp来说如同天文数字。所以,要进行诸如人类基因组测序,则必须在两个方面取得突破:一是将基因组DNA大分子分割并构建适合于测序的DNA片段库,库中的片段要覆盖整条序列;二是在整条线性序列上建立一定数量的“路标”,使切割下来的DNA片段能准确拼装回去。遗传图谱和物理图谱便是这样的“路标”图。1998年人类遗传和物理图谱的建成最终使人类基因组计划成为可能。

基因组上的DNA相当稳定,因此可以构建含有这些DNA片段的新生物体。克隆技术是把基因组上的片段插到一定载体(酵母、细菌、粘粒、噬菌体等)上,并转染到微生物体中使其生存和稳定复制,由此可以分析由小片段DNA组成的基因组拷贝(克隆群)。随着脉冲场电泳技术(pulsed-field gel electrophoresisPFGE)、YAC克隆、BACPAC克隆的出现,可以把切割基因组后产生的大片段DNA准确地分离和纯化,并插入能转入DNA大片段的载体,转染酵母细胞形成YAC克隆库或转染大肠杆菌形成BAC克隆库。这些载体可载入10Mb长度(相当于人类全基因组碱基长度的1/300)的DNA片段。全基因组的YAC克隆库及BAC克隆库保证了基因组分析的完整性和准确性。可以用杂交技术等来发现重叠克隆,以此进行克隆片段的排序。对于大片段DNA 克隆进行再切割,并载入粘粒、细菌或噬菌体,即可构建相应于特定YACBAC 克隆的亚克隆(subcloning),供测序使用。这一系统过程的建立为大规模测序打下了坚实的基础。

遗传图谱(genetic map)又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map),是指基因组内基因和专一的多态性DNA标记相对位置的图谱,其研究经历了从经典的基因连锁图谱到现代的DNA标记连锁图谱的过程。构建遗传图谱的基本原理是:真核生物遗传过程中会发生减数分裂,在此过程中染色体要进行重组和交换,重组和交换的概率会随着染色体上任意两点间相对距离的远近而发生相应的变化。根据概率大小,人们就可以推断出同一条染色体上两点间的相对距离和位置关系。这张图谱只能显示标记之间的相对距离,我们称这一距离(概率)为遗传距离(cM),由此构建的图谱也被称为遗传图谱。遗传图谱的“路标”(遗传标记)已经历了几次从“粗”到“细”的演变。经典的遗传标记最初主要是利用蛋白质或免疫学等的标记,70年代中后期建立起来的限制性片段长度多态性(RFLP)方法成为第1代的DNA标记,这类标记在整个基因组中确定的位点数目可达105以上。第2代标记为可变数量串联重复序列(Variable number tandem repeatVNTR),包括微、小卫星(microsatellite/minisatellite)或短串联重复(short tandem repeatSTRshort sequent length polymorphysmSSLP)标记等。第3代标记是一类称作SNPsingle nuleotide polymorphysm)的遗传标记系统,即单核苷酸多态性标记。遗传图谱上的各种DNA标记正如地图上标明的河流、山川,随着人类基因组等计划的进行,人们不断发现一些新的标记,逐渐将人类基因组这幅地图标记得越来越详细。在GDBgeneome database)网页上可以方便地查找到迄今已发表的各种遗传标记(http://gdbwww.gdb.org)。

遗传图谱的构建是人类基因组研究必不可少的一步,它对明确基因的功能、定位及分离克隆新基因、排列DNA片段、研究染色体上基因的排列顺序等起到不可估量的作用。

物理图谱是描述位于染色体上的基因和生物学界标独特并有确定位置及实际距离的染色体结构。任何图谱都是一系列路标及客观物(objects)按其固有的顺序和可能的距离构建出来的。客观物的顺序应不随构图方法的不同而不同,但它们之间的距离则可能不一致。在遗传图谱中按重组率来估计实际距离会有很大的偏差。物理图谱可以理解为用物理学方法而不是遗传学方法定位的由客观物组成的任何图谱,通常指高分辨率(high-resolution)的物理图谱,即基因组长片段限制性酶切图谱和重叠克隆图谱等。

构建物理图谱最终是要统一到基于STS的物理图谱STSsequence-tagged site,序列标签位点)的概念首先由Olson1989年提出,目的是建立一套人类基因组统一的生物学界标STS本身是随机地从人类基因组上选择出来的长度在200300 bp左右的特异性短序列,一般是从噬菌体M13上构建特定染色体克隆开始,STS概念的提出是物理构图的一次革命,由于特定STS在一套基因组结构中只出现一次,统一地把相应的克隆库中的克隆进行排序变得更准确和更科学。如果两个或两个以上的克隆包含有相同的STS,则它们之间存在重叠。基于STS的物理图谱的重要性在于:(1)它们可用来特异地定义YAC、粘粒或噬菌体克隆;(2)STS可鉴定出与特定克隆存在重叠的克隆;(3)在计算机数据库中的各种物理图谱可以用STS这种通用语言统一起来。基于STS的物理图谱不仅可对染色体图谱、限制性酶切位点为路标的限制性酶切图、重叠探针杂交的YAC克隆片段重叠群(contig)图谱以及新近发展的其它方法构建的物理图谱进行整合,也可对遗传图谱、基因图谱等各类图谱进行整合,最终完成系统的、统一的基因组终极图谱——人类基因组核苷酸序列相当于STS密度最高的基因组物理图谱。

 

综上所述,广义上各种基于路标位点构建的物理图谱,从低分辨率到高分辨率主要分为(或经历了)以下几种:

(1)对路标进行粗略定位的染色体图谱即细胞遗传图谱(cytogenetic map),通常使用原位杂交(ISH)或荧光原位杂交(FISH)技术确定含有路标DNA片段在染色体上的区带位置和分布。DNA片段可被定在210 Mb的范围内。

(2)cDNA图谱,部分cDNA序列可作为路标,在细胞遗传图谱上显示cDNAESTsexpressed sequence tags)的区带位置。

(3)利用家系分离分析法(pedigree segregate analysis)可确定具有多态性的遗传标记位点在遗传连锁图谱上的位置,最新的人类基因组遗传连锁图谱已把标记间的平均距离缩小到1 cM以下,即粗略地对应于物理图谱中的1 Mb范围内。

(4)辐射杂种图谱,是利用体细胞遗传技术(somatic cell genetic approach)构建高分辨率、长范围连续的人类基因组图谱。基本原理为,人为地用放射线打断染色体,制备出含有特定人类染色体或片段的杂交细胞系,并利用类似于传统的减数分裂构图原理确定路标间的距离和位置,最高的分辨率可达到50 kb

(5)脉冲场电泳的长片段限制性位点(macrorestrietional site)图谱,即限制性酶切位点指纹(restriction enzyme fingerpriting)图谱是描述以稀有酶切位点为生物学界标的顺序和距离,以及形成基因组或染色体区域上的酶切图谱。由于此法是从大片段入手,故又称为“从上到下”top-down)构图法;此外,区域性DNA大片段有利于较精细制图,如YAC克隆插入片段分析有利于重叠图谱的分析,此方法可把DNA片段定位在100 kb1 Mb范围内。

(6)DNA片段重叠群(contig)形成的小组合,即相连组合图谱,或称重叠克隆群(overlapping sets of cloning)图谱描述存在于重叠的DNA片段克隆的顺序和距离。通常通过粘粒重叠克隆把DNA片段定位在小于2 Mb的范围内,相对于长片段限制性酶切位点图谱,这种构图法也被称为“从下到上”(bottom-up)法。

(7)序列标签位点(sequence-tagged siteSTS)构成了STS基础上的整合图。它是基因组上筛选特异序列,其最终密度至少达到平均每100 kb左右一个,最终把各种方法构建的图谱整合起来,完成准确完整的系统物理图谱。

(8)部分及全基因组测序是分辨率最高的物理图谱,而目前要构建的高分辨率(<100 kb)物理图谱上路标序列本身也是基因组序列信息的一部分。此外,一些构建物理图谱的方法还包括基因组序列抽样(genomic sequence samplingGSS)和可见图谱(optical map)等。GSS是结合片段限制性酶切和STS的一种作图法,分辨率可达到15 kb;可见图谱则是结合限制性酶切、电泳和FISH技术通过观察单个DNA大分子在限制性酶切作用下的图像来作图。

        低分辨率物理图谱在人类基因组计划中本身是独立的部分,但从染色体区带-表达基因区域-遗传学距离-物理学实际距离-碱基序列这一过程来看,低分辨率染色体分带可看作粗略的物理图谱,碱基序列则是最精密的物理图谱。低分辨率图谱上的一些路标常常被用在高分辨率图谱的构建中,结合其它路标形成高密度路标分布的图谱,同时这些高密度路标可以重新在低分辩率图谱进行验证,形成高分辩率与低分辩率相结合的整合物理图谱。每种图谱都有各自的优缺点,所以即使对同一基因组研究,不同的实验室会采用不同的作图方法,但最终各种图谱的结果应能统一起来,相互补充和完善。




https://blog.sciencenet.cn/blog-3431904-1229321.html

上一篇:生物信息学与数据库
下一篇:比较基因组学与几个易混的概念similarity,analogy,homology,orthology,paralogy
收藏 IP: 111.36.137.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 03:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部