|
1. kraken2安装
1.下载
Kraken2下载地址:https://github.com/DerrickWood/kraken2/releases/tag/v2.1.3/
解压kraken2-2.1.3/
2.安装到指定位置(../install/)
install_kraken2.sh ../install/
2. 个性化建库
创建个性化库patho步骤
1.下载ncbi-taxonomy分类库
install/kraken2-build --download-taxonomy --threads 24 --db patho
结果:生成patho/taxonomy/
【注意】此步下载三个压缩包并解压,但是速度很慢。建议使用ascp软件下载到patho/taxonomy/路径下,程序会自己检测到已存在压缩文件,并解压。
2.添加自定义库的fna文件(patho.fna)
install/kraken2-build --add-to-library patho.fna --db patho
结果:生成patho/library/和patho/taxonomy/prelim_map.txt
【注意】此步可能会报错,因为可能patho.fna库里面序列accession(sequence ID),kraken2就是识别不出来(即sequence ID不在nucl_gb.accession2taxid和nucl_wgs.accession2taxid文件中)。修改kraken2-2.1.3/scripts/scan_fasta_file.pl,红框一行代码#注释掉即可。
如果有多个fa文件可使用:find genomes/ -name '*.fa' -print0 | xargs -0 -I{} -n1 kraken2-build --add-to-library {} --db $DBNAME
3.构建个性化库
install/kraken2-build --build --db patho/
结果:patho/生成hash.k2d,opts.k2d,taxo.k2d,seqid2taxid.map(accession与taxid对应关系表)
备注:--threads参数可以缩短建库时间
4.使用个性化库,物种鉴定(seqs.fa测序文件)
install/kraken2 --db patho/ --threads 20 --output result.profile --report result.report seqs.fa
【补充】
*低复杂度序列处理 |
1.屏蔽低复杂度序列可以帮助防止Kraken 2的结果中出现误报,因此此功能作为默认选项添加到了Kraken 2中的库下载/添加过程中。 2.NCBI BLAST+套件中使用dusmasker(核苷酸序列)和segmasker(氨基酸序列)插件屏蔽低复杂度序列,如果本地没有安装并且没有在用户默认环境变量中,使用kraken2-build建库会失败。 备注:--no-masking跳过对低复杂度序列的屏蔽。 |
*特殊数据库构建(不遵循NCBI分类法的常见用例,目前主要为16S类型) |
kraken2-build --db $DBNAME --special TYPE 针对16S测序项目,TYPE支持从三个公开可用的16S数据库构建Kraken 2数据库:greengenes,rdp,silva |
*添加其他基因组,但基因组必须满足以下要求(即个性化建库): |
1.必须是fasta格式 2.每个序列的sequence ID(标题行上>和第一个空白字符之间的字符串)必须包含NCBI accession以允许Kraken2查找正确的分类群,或者使用kraken:taxid直接赋值分类ID(适用于未从NCBI下载的序列)。 在sequence ID中添加字符串kraken:taxid|XXX(XXX为taxon ID),如下: |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 05:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社