||
作者:钱胜
原载于本实验室微信公众号EvoDevo好好玩(http://mp.weixin.qq.com/s/CS7eLBpsBCBx4StQgwAscQ )
Query sequence:查询什么序列
Database:到哪里去查
Blast type:如何查询
简单的双序列比对
序列与库之间的双序列比对
补充:除了Blast适用的双序列比对,还有多序列之间的比对,只要用来构建进化树,用于演化分析
Blastn---- Nucleotide-nucleotide
Blastp---- Nucleotide-protein
Blastx---- Translated query vs protein database
tblastn---- Protein query vs translated database
tblastx---- Translated query vs translated database
bl2seq---- Align two sequences
不管怎么样,反正我是记不住的
FAQ:为何要将DNA翻译为蛋白质再进行序列比对呢?
密码子具有简并性,翻译成蛋白质比较更符合实际;蛋白质的match,mismatch,gap等打分系统比DNA复杂,结果会更准确;蛋白质演化速率比DNA慢,所以可以用到远缘物种的序列比对
方法一:NCBI Blast
强大的NCBI相信大家都不陌生,依次输入选择自己想要的类型,wait一段时间就能得到结果,建议大家在点击BLAST之前勾选旁边的show results in a new window,让结果另建窗口输出,方便多次BLAST和对比不同序列得到的结果。(当然了,这必定不是本文的重点)
方法二:本地Blast
按照基本思想,我们需要下载Blast软件
curl -O ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.6.0+-x64-linux.tar.gz
tar zxvf ncbi-blast-2.6.0+-x64-linux.tar.gz
添加环境变量后,检查blast是否可以正常使用
blastn -h
能显示USAGE即测试完成
下一步,构建本地数据库,先看看用法
makeblastdb -in Danio_rerio.GRCz10.dna_sm.toplevel.fa -dbtype nucl
ll
选择斑马鱼的Ref genome,查看构建好的本地数据库文件
最后一步,构建query sequence
方便后续简单比对,我选择了斑马鱼Ref genome的前两行作为query file
blastn -db Danio_rerio.GRCz10.dna_sm.toplevel.fa -query query.fa
看看输出的结果:blastn的版本,所用的数据库,query序列的名字,长度以及最后比对出的序列在染色体的位置、hit score、E value等信息,有意思的是居然还出现在当时发表BLAST的paper,显示说是2000年Zhang et al.,开发的,发表在Journal of Computational Biology上,BLAST算是生物信息学应用领域最广泛的算法之一了,作者想必也比较自豪。
本次比对的best hit当然是它本身啦,second hit在它的第8号染色体上,居然没有Gap,一致性也达到97%
如果我们想看一下一共有多少个hits,怎么办呢?
这里的Fields是下面表格的表头,后面的每个参数都是一一对应的关系
显示一共找到了20个hits,细心的小伙伴肯定发现了一个问题,这个结果比上面不加-outfmt 7统计的hits数量多,因为上面同一染色体的hits只显示其中的一条,所以结果少了一部分。那么这里的-outfmt 7是什么意思呢,blastn -help显示每个参数的具体用法,看到输出结果的选项,我选择了带有表头的表格。
最后,大家可以用构建本地数据库的Ref genome 作为query.fa,相当于“自己”和“自己”进行比对,看看结果是什么,来吧,来一下自己服务器的极限吧!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-23 10:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社