博文

利用本地blast进行特定物种的数量统计

已有 2601 次阅读 2020-7-10 17:31 |个人分类:生物信息学|系统分类:科研笔记

前期利用本地BLAST进行FH-1/去嵌合体代表序列比对，发现CK/FH无显著差异，且FH量低于CK。深入分析，发现代表性序列是97%相似水平的OTU。应尝试100%相似性比对。

需要下载原始数据，抽平，比对，得到各个样品的比例，再进行比较。

#参考https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit进行sratoolkit安装

#下载软件包

wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz

#解压

tar -vxzf sratoolkit.tar.gz

#进入bashrc配置路径

vi ~/.bashrc

添加：export PATH=$PATH:/public/home/dell/sratoolkit.2.10.8-centos_linux64/bin#可利用pwd获得路径

#退出，激活

source ~/.bashrc

#下载sra文件

prefetch SRR8888

#sra文件转换为fastq文件

fastq-dump SRR8888.sra

#fastq文件转换为fasta文件

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR8888.fastq >SRR8888.fasta

# 通过搜索>的数量统计fasta文件中的序列数

grep -c '^>' SRR8888.fasta

#安装seqkit

conda install seqkit

#利用seqkit进行随机抽取，利用数量进行抽取，可能会有一定的误差

seqkit sample -n 60000 -s 11 SRR8888.fasta -o subsample.fasta

#安装BLAST

source ~/miniconda3/bin/activate

conda install blast

#建库

makeblastdb -in subsample.fasta -dbtype nucl -parse_seqids -out database

#比对

blastn -db database -query FH.fasta -out FHblast -evalue 1e-5 -outfmt 6

参考文献：

https://www.jianshu.com/p/c5ad945d30e0

https://www.cnblogs.com/huangyinger/p/10421805.html

转载本文请联系原作者获取授权，同时请注明本文来自王敬敬科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2675068-1241502.html

上一篇：[转载]fasta序列操作神器--seqkit
下一篇：微生物接种剂全球市场from marketsandmarkets

收藏 IP: 124.16.173.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

王敬敬

扫一扫，分享此博文

NICOLSON的个人博客分享 http://blog.sciencenet.cn/u/NICOLSON

博文

利用本地blast进行特定物种的数量统计

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

王敬敬

全部作者的其他最新博文

全部精选博文导读

NICOLSON的个人博客分享 http://blog.sciencenet.cn/u/NICOLSON

博文

利用本地blast进行特定物种的数量统计

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王敬敬

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)