NICOLSON的个人博客分享 http://blog.sciencenet.cn/u/NICOLSON

博文

利用本地blast进行特定物种的数量统计

已有 1785 次阅读 2020-7-10 17:31 |个人分类:生物信息学|系统分类:科研笔记

前期利用本地BLAST进行FH-1/去嵌合体代表序列比对,发现CK/FH无显著差异,且FH量低于CK。深入分析,发现代表性序列是97%相似水平的OTU。应尝试100%相似性比对。

 

需要下载原始数据,抽平,比对,得到各个样品的比例,再进行比较。


#参考https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit进行sratoolkit安装

#下载软件包

wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz

#解压

tar -vxzf sratoolkit.tar.gz

#进入bashrc配置路径

vi ~/.bashrc

添加:export PATH=$PATH:/public/home/dell/sratoolkit.2.10.8-centos_linux64/bin#可利用pwd获得路径

#退出,激活

source ~/.bashrc

 

#下载sra文件

prefetch SRR8888

 

#sra文件转换为fastq文件

fastq-dump SRR8888.sra

 

#fastq文件转换为fasta文件

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR8888.fastq >SRR8888.fasta

 

# 通过搜索>的数量统计fasta文件中的序列数

grep -c '^>' SRR8888.fasta

 

#安装seqkit

conda install seqkit

#利用seqkit进行随机抽取,利用数量进行抽取,可能会有一定的误差

seqkit sample -n 60000 -s 11 SRR8888.fasta -o subsample.fasta

 

#安装BLAST

source ~/miniconda3/bin/activate

conda install blast

#建库

makeblastdb -in subsample.fasta  -dbtype nucl -parse_seqids -out database

#比对

blastn -db database -query FH.fasta -out FHblast -evalue 1e-5 -outfmt 6

 

参考文献:

https://www.jianshu.com/p/c5ad945d30e0

https://www.cnblogs.com/huangyinger/p/10421805.html




https://blog.sciencenet.cn/blog-2675068-1241502.html

上一篇:[转载]fasta序列操作神器--seqkit
下一篇:微生物接种剂全球市场from marketsandmarkets

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-6-26 13:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部