|||
保守序列(Conserved Sequence ):指DNA分子中的一个核苷酸片段或者蛋白质中的氨基酸片段,它们在进化过程中基本保持不变。摘自百度百科。
二、构建进化树过程中,为什么选择保守序列
在系统发育分析中需要构建系统发育树说明物种之间的进化关系,系统发育树的构建基于不同物种间的同源序列(同源序列是一段核苷酸序列),当不同物种间同源序列保守性较好时,此时,同源序列适合系统树的构建,也适宜系统发育分析。但是,并非基因的所有区域都以相同的速率进化,当某些部位的序列发散较为严重或者很多缺口(在实际序列比对过程中,缺口是较为常见的情况),此时,部分序列中含有较少的系统发育信息,这种情况下适合构建系统发育树进行系统发育分析。因此,在序列比对后(通过软件比对后,会出现很多gap或者有的序列较长)对序列进行修剪,即选择更加保守的序列进行系统发育分析。保守区选择主要用于优化多重比对质量。
Notes*:保守区的选择主要适用于信息位点足够多的序列,当应用于短序列比对时,可能会得到较差的结果。
三、保守区选择的方法
手动法:在数据比对之后,需要对gap或者两端的冗余序列进行处理,在序列较短的情况下,人为手动删除,调整,这个过程就是保守区的选择。手动法调整序列的一个不足是数据不具有重复性。
Gblock法:当序列较长时,一般使用Gblock进行处理。通过GBLOCKS工具选择序列的保守区,有在线版本和线下版本。
在线版本:http://www.phylogeny.fr/one_task.cgi?task_type=gblocks
支持的格式包括fasta, Phylip, Clustal, EMBL或者NEXUS格式的比对文件,这里可以直接上传文件也可以直接将序列粘贴。
这里可以设置参数,然后提交,系统一会就可以完成。
输出结果
本地版本:下载传送门,即GUI(Graphical User Interface),即有操作界面。
这里说明一下为什么已经有Online service,还有GUI,主要是因为Gblock服务器限制的问题,大数据无法进行线上操作。
一种方法是直接下载安装Gblock
第二种是使用PhylosSuite这个平台软件(刚出不久的国产软件,骄傲ing,是一个平台软件,里面集合了各种主流的进化分析软件的GUI使用),直接在里面可以安装,十分快捷。下载传送门
四、保守区选择和序列比对的顺序
相信很多初学者都会有这样的问题,对序列比对与保守区选择的先后顺序产生了疑问。从研究的目的出发,我们使用比对后的结果去构建进化树,即从比对后的序列中选择保守的序列区间去构建进化树,按照这个逻辑就是保守区选择是在序列比对之后,即比对之后,去除比对中出现的gap或者两端冗余的序列。
Notes*在知乎上发现一个非常有意思的话题:很多研究都集中在保守基因,但非保守基因却可能是一个物种之所以有别于其它物种的原因所在。这句话理解和逻辑是正确的,有一个回答也很有意思:从进化的角度看,那些在种内保守,近缘种间发生大的或者关键性突变的基因更有意义。(话题传送门)
References:
Castresana J. Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis[J]. Molecular biology and evolution, 2000, 17(4): 540-552.
转自https://zhuanlan.zhihu.com/p/36815051
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 15:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社