Chen Lab @ HZAU分享 http://blog.sciencenet.cn/u/chenzhenxia119

博文

【生信技能】今天你blast了吗?

已有 9393 次阅读 2018-1-16 22:10 |个人分类:学习资源|系统分类:科研笔记

作者:钱胜

原载于本实验室微信公众号EvoDevo好好玩(http://mp.weixin.qq.com/s/CS7eLBpsBCBx4StQgwAscQ


1、Blast基本思想

Query sequence:查询什么序列

Database:到哪里去查

Blast type:如何查询

2、Blast(Basic Local Aligment Search Tool)适用对象

简单的双序列比对

序列与库之间的双序列比对

补充:除了Blast适用的双序列比对,还有多序列之间的比对,只要用来构建进化树,用于演化分析

3、Blast类型

Blastn---- Nucleotide-nucleotide

Blastp---- Nucleotide-protein

Blastx---- Translated query vs protein database

tblastn---- Protein query vs translated database

tblastx---- Translated query vs translated database

bl2seq---- Align two sequences

不管怎么样,反正我是记不住的

FAQ:为何要将DNA翻译为蛋白质再进行序列比对呢?

密码子具有简并性,翻译成蛋白质比较更符合实际;蛋白质的match,mismatch,gap等打分系统比DNA复杂,结果会更准确;蛋白质演化速率比DNA慢,所以可以用到远缘物种的序列比对

4、如何进行Blast

方法一:NCBI Blast

强大的NCBI相信大家都不陌生,依次输入选择自己想要的类型,wait一段时间就能得到结果,建议大家在点击BLAST之前勾选旁边的show results in a new window,让结果另建窗口输出,方便多次BLAST和对比不同序列得到的结果。(当然了,这必定不是本文的重点)

方法二:本地Blast

按照基本思想,我们需要下载Blast软件

curl -O ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.6.0+-x64-linux.tar.gz

tar zxvf ncbi-blast-2.6.0+-x64-linux.tar.gz

添加环境变量后,检查blast是否可以正常使用

blastn -h

能显示USAGE即测试完成

下一步,构建本地数据库,先看看用法

makeblastdb -in Danio_rerio.GRCz10.dna_sm.toplevel.fa -dbtype nucl

ll

选择斑马鱼的Ref genome,查看构建好的本地数据库文件

最后一步,构建query sequence

方便后续简单比对,我选择了斑马鱼Ref genome的前两行作为query file

blastn -db Danio_rerio.GRCz10.dna_sm.toplevel.fa -query query.fa

看看输出的结果:blastn的版本,所用的数据库,query序列的名字,长度以及最后比对出的序列在染色体的位置、hit score、E value等信息,有意思的是居然还出现在当时发表BLAST的paper,显示说是2000年Zhang et al.,开发的,发表在Journal of Computational Biology上,BLAST算是生物信息学应用领域最广泛的算法之一了,作者想必也比较自豪。

本次比对的best hit当然是它本身啦,second hit在它的第8号染色体上,居然没有Gap,一致性也达到97%

如果我们想看一下一共有多少个hits,怎么办呢?

这里的Fields是下面表格的表头,后面的每个参数都是一一对应的关系

显示一共找到了20个hits,细心的小伙伴肯定发现了一个问题,这个结果比上面不加-outfmt 7统计的hits数量多,因为上面同一染色体的hits只显示其中的一条,所以结果少了一部分。那么这里的-outfmt 7是什么意思呢,blastn -help显示每个参数的具体用法,看到输出结果的选项,我选择了带有表头的表格。

最后,大家可以用构建本地数据库的Ref genome 作为query.fa,相当于“自己”和“自己”进行比对,看看结果是什么,来吧,来一下自己服务器的极限吧!




https://blog.sciencenet.cn/blog-355779-1095217.html

上一篇:【生信技能】如何根据gene ID批量从参考基因组中提取序列
下一篇:JC Bioinformatics 2018暑期班
收藏 IP: 220.249.99.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 01:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部