lyao222lll的个人博客分享 http://blog.sciencenet.cn/u/lyao222lll

博文

微生物次级代谢物合成基因簇注释数据库antiSMASH的本地安装及使用说明

已有 7900 次阅读 2019-1-13 00:36 |个人分类:数据库/在线网站|系统分类:科研笔记| _生信工具, _数据库, _结构基因组, _功能基因组

微生物次级代谢物合成基因簇注释数据库antiSMASH的本地安装及使用说明

 

antiSMASH是用于预测和注释微生物次级代谢物合成基因簇的一款软件(数据库),即可用于细菌也可用于真菌。antiSMASH为研究者提供一个使用方便、注释了的生物合成基因簇最新集合,可以让研究者在提供复杂的问题之后轻松地进行基因组之间的分析,其官方网站:

http://antismash.secondarymetabolites.org/

antiSMASH的主页中,我们可以上传细菌或真菌的基因组序列进行在线分析,以对基因组中的次级代谢物合成基因簇进行注释。在线使用方法就不再多讲了,可参见此大神的博文(同时也对该数据库进行了详细说明):

http://blog.sciencenet.cn/blog-3334560-1068955.html

由于在线使用antiSMASH会受到很多限制,如上传的基因组不能过大,运行等待时间也比较长等,因此在这里给大家分享如何在本地(Linux系统)安装及运行antiSMASH,以及对所得结果进行简要说明

若有错误的地方,还请在评论处留言。

 


antiSMASH的安装


其官方网站中,给出了本地安装的详细文档。

https://docs.antismash.secondarymetabolites.org/install/

安装方法有多种,其中推荐使用Bioconda进行安装,方便快捷。antiSMASH的这点非常好,将其所依赖的环境、模块及数据库打包在Bioconda里面了,并且也保持一直在更新。

注:安装时要保证网络良好,若中间某步断开,antiSMASH将不会被成功安装。我安装了数小时(当然也因为我安装那会儿网络不咋地,中间还断开了还需从头再来,大家网络良好的话应该不会很长时间)。

#首先需要保证本地安装了 conda,例如 miniconda
#https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
 
#加载 miniconda 环境变量后,使用 conda 中添加 biopython,若已存在则可跳过
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
 
#根据官方文档,在 conda 中创建 antismash 环境并下载安装 antiSMASH
conda create -n antismash antismash
source activate antismash
download-antismash-databases
source deactivate antismash
 
#若中间没断开没报错,则 antiSMASH可以正常运行了
#运行前记得首先加载 miniconda 环境变量(可在 ~/.bashrc 中设置自动加载)
#使用“source activate”加载 antismash 环境,并简要查看是否可以正常运行
source activate antismash
antismash -h
 
#运行完时记得“source deactivate”退出antismash 环境
source deactivate antismash

 


antiSMASH参数说明


使用“antismash -h”查看帮助,基本信息如下。

1.png

此处的antiSMASH版本v4.1.0,以下介绍主要参数。

注:以下参数大多直接根据字面意思翻译,并且涉及到的算法我也不很懂,可能翻译有误,所以仅供参考……


--help:帮助选项。

--cpuantiSMASH运行时的线程数,默认16

输入文件(基因组数据):

GenBankEMBLFASTA格式的基因组数据。推荐使用GenBank或者EMBL格式的基因组数据,因这两种格式的数据中相较于FASTA文件而言所包含的信息更全面,如包含了CDS区所编码的氨基酸等,结果(如基因序列获取及比对分析等)更准确可靠。

必选参数,基础选项:

--taxon:指明微生物类型,细菌(bacteria)或真菌(fungi)。

--input-type:指明输入文件类型,核酸序列文件(nucl)或氨基酸序列文件(prot)。

可选参数,与antiSMASH的调用算法有关:

--transatpks_da:根据按结蛋白结构域序列组成及相似性所计算得到的距离,匹配最相似的transatpks BGC

--transatpks_da_cutoff:根据计算的蛋白结构域对齐程度,此处设定需要修复的transATPKS assembly line的数量值。

--clusterblast:将已识别的基因簇与antiSMASH预测的基因簇数据集进行比对。

--subclusterblast:将已识别的基因簇与已知负责合成前体物质的子簇进行比对。

--knownclusterblast:将已识别的基因簇与MIBiG数据库中的已知基因簇进行比对。

--smcogs:寻找簇的直系同源群

--inclusive:使用ClusterFinder算法进行额外的基因簇检测。

--cassis:使用CASSIS算法预测基因簇边界(仅限真菌)

--borderpredict:使用ClusterFinder算法预测基因簇边界。

--full-hmmer:运行全基因组HMMer分析。

--asf:运行活性中心(active site)检测模块。

--tta:运行TTA密码子检测模块。

输出选项,与antiSMASH的结果输出有关,请根据需求考虑:

--outputfolder:结果输出路径,不指定则默认当前工作路径。

--enable-BiosynML:开启BiosynML输出结果。

--disable-embl:不输出EMBL结果(即embl格式的注释文件)。

--disable-genbank:不输出GenBank结果(即gbk格式的注释文件)。

--disable-svg:不输出SVG结果。

--disable-xls:不输出xls统计结果(即下文提到的*.geneclusters.xls统计结果文件)。

--disable-html:关闭HTML输出结果(为方便查看结果,这个强烈不推荐关闭)。

--disable-txt:不输出与数据集的比对结果txt文件。

 


antiSMASH运行示例


官方文档中的运行示例简介。

https://docs.antismash.secondarymetabolites.org/command_line/

此处作为示例,使用以下参数运行。

mkdir antismash_result && cd antismash_result
source activate antismash
antismash --clusterblast --subclusterblast --knownclusterblast --smcogs --inclusive --borderpredict --full-hmmer --asf --enable-BiosynML --taxon bacteria --input-type nucl --cpus 20 test.fasta
source deactivate antismash

这里我们首先创建结果路径“antismash_result”,并进入此路径中,之后运行antiSMASH。此处不指定输出路径,antiSMASH的所有运行结果将会默认输出在当前工作路径下(即“antismash_result”)。

输入文件为某细菌(“--taxon bacteria”)全基因组核酸序列(“--input-type nucl”)fasta文件(test.fasta,该文件已提前移动至antismash_result”路径下;实际分析中,推荐使用GenBank或者EMBL格式的基因组数据,因这两种格式的数据中包含的信息更全面,如包含了CDS区所编码的氨基酸等,与无CDS区信息的FASTA文件相比所得结果会更准确可靠),使用线程数为20(“--cpus 20”)。

可选参数中,执行clusterblastsubclusterblastknownclusterblastsmcogsinclusiveborderpredictfull-hmmerasf操作。

所有类型的结果均执行输出。

 注:此处为向大家展示更多的结果,尽可能使用了所有的参数,故运行时间会比较长,占用资源也多。大家在实际的运行中请根据实际需要选择参数运行。


上述命令运行完毕后,在“antismash_result”中可得到以下结果。此处为了方便查看,已将结果拷贝至windows桌面。

2.png

test.htmlantiSMASH生成的交互式网页报告,包含了本次注释结果的大部分详细信息

clusterblastoutput.txt:基因组antiSMASH基因簇数据集的比对结果

clusterblastoutput(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容

knownclusterblastoutput.txt:基因组与MIBiG数据库中的已知基因簇blast比对结果

knownclusterblastoutput(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容

subclusterblastoutput.txt:基因组与已知负责合成前体物质的子簇的比对结果

subclusterblastoutput(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容

test.final.gbk:以gbk格式展示基因组中所有基因簇及基因信息

test.cluster001.gbk等多个gbk文件:以gbk格式,将每个基因簇的内容单独展示

test.final.embl:以embl格式展示基因组中所有基因簇及基因信息

test.geneclusters.xls:基因簇注释结果的简要统计结果

biosynML.xml:以xml格式记录基因簇注释结果

smcogs(文件夹):进化树展示图

cssimagesjssvg等其它文件夹及文件:主要为网页版报告的配置文件



antiSMASH主要结果文件说明


 结合上述运行示例,对几个主要结果文件的内容进行简要说明。

test.htmlantiSMASH网页报告)

antiSMASH以网页版报告的形式展示其所注释出次级代谢产物合成基因簇的详细内容,包含基因簇结构组成、功能描述信息等。该报告由antiSMASH软件自动生成,简介如下,更多信息可参考antiSMASH官方帮助文档。

注:请保持网络处于连接状态,否则部分结果无法显示。

3.png

例如,点击左侧的基因簇类别之后,可进入以下界面。新界面为官方对各类基因簇的分类描述信息,可在新界面中找到对应的基因簇类别名称查看描述。

4.png

再例如,点击左侧的基因簇ID之后,可进入以下界面。新界面对该基因簇的结构信息以可视化模块加以展示。

5.png

再例如,点击右侧的同源基因簇ID之后,可进入以下界面。新界面对同源基因簇(来自antiSMASH数据库)的结构信息以可视化模块加以展示。

6.png

 

clusterblastoutput.txtknownclusterblastoutput.txtsubclusterblastoutput.txt

样本基因组与antiSMASH基因簇数据集blast比对结果,用以判定样本基因组中存在的基因簇结构。文件推荐使用Excel打开,以更方便查看结果。

其中,clusterantiSMASH基因簇数据集的比对结果knownclusterMIBiG数据库中的已知基因簇的比对结果subcluster与已知负责合成前体物质的子簇的比对结果

文件内容包括已识别的基因簇与目标基因簇的比对E-value值、Score值、置信度、对齐程度等信息,可参阅blast结果m8通用格式:

http://www.drive5.com/usearch/manual/blast6out.html

7.png

 

clusterblastoutputknownclusterblastoutputsubclusterblastoutput(文件夹)

依据上述blast结果,鉴别基因簇。并对于每个基因簇,将其所含基因、在基因组中的位置等信息以单独文件展示出(具体子文件名称列为cluster1.txtcluster2.txtcluster3.txt……子文件个数由基因簇数量决定)。对于knownclusterblastoutput结果,存在额外文件,记录了同源基因簇的名称、功能等内容。

文件内容信息不再展示。

 

test.final.gbk

gbk格式展示样本基因组中,通过antiSMASH注释后所得所有基因簇及基因信息。

包含各基因ID、序列组成、所在基因组位置、功能、蛋白域结构等内容,可参考genbank标准文件格式说明,参考网址如下。

https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

8.png

 

test.cluster001.gbktest.cluster002.gbktest.cluster003.gbk

gbk格式,将每个基因簇的内容单独展示(具体子文件名称列为test.cluster001.gbktest.cluster002.gbktest.cluster003.gbk……子文件个数由基因簇数量决定)。

子文件内容信息不再展示,每个子文件中的内容都属于test.final.gbk中的一部分,所有子文件内容合并后,即为test.final.gbk。格式可参考上述genbank标准文件格式链接中的说明。

 

test.final.embl

embl格式展示样本基因组中,通过antiSMASH注释后所得所有基因及基因簇信息。

gbk格式中的内容信息一致,均包含各基因ID、序列组成、所在基因组位置、功能、蛋白域结构等内容。格式与gbk格式相似。

9.png

 

test.geneclusters.xls

基因簇注释结果的简要统计结果,每一行为一个基因簇。其中,Input name:该基因簇所在基因组序列IDGene cluster type:该基因簇类别;Gene cluster genes:该基因簇中所含的基因ID

10.png

 

biosynML.xml

xml格式记录的基因簇注释结果,展示如下。

11.png

 

smcogs

主要为进化树展示图。展示了样本基因组中,注释得到的每个与次级代谢产物合成有关基因与其同源基因(来自antiSMASH数据库)的亲缘关系。

某进化树部分分枝展示如下。

12.png

 

cssimagesjssvg等其它文件夹及文件

主要为网页版报告的配置文件,无需点击查看。请勿随便移动,否则网页版报告内容会显示不完全。

 


参考文献


Blin K, Wolf T, Chevrette M G, et al. antiSMASH 4.0 - improvements in chemistry prediction and gene cluster boundary identification. Nucleic Acids Research, 2017, doi: 10.1093/nar/gkx319.




http://blog.sciencenet.cn/blog-3406804-1156761.html

上一篇:
下一篇:关于在ggplot2中绘制截断坐标轴的方法

0

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-12 18:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部