woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

NAR:antiSMASH数据库2—次级代谢物基因簇预测

已有 12384 次阅读 2019-6-3 11:09 |个人分类:读文献|系统分类:科研笔记

之前我们介绍过《antiSMASH:微生物次生代谢物基因簇预测》的使用实例和结果解读。此软件目前累计发表5篇NAR,引用超3千次。今天为大家带来了全新的antiSMASH数据库第二版。来看看有哪些更新和新功能。

image

antiSMASH数据库第2版:次级代谢产物生物合成基因簇的综合资源

The antiSMASH database version 2: a comprehensive resource on secondary metabolite biosynthetic gene clusters

Nucleic Acids Research, [11.561]

https://doi.org/10.1093/nar/gky1060

Published: 05 November 2018

第一作者:Kai Blin1

通讯作者:Tilmann Weber1 tiwe@biosustain.dtu.dk

合作作者: Vict` oria Pascal Andreu2, Emmanuel LC de los Santos3,
Francesco Del Carratore4, Sang Yup Lee1,5, Marnix H. Medema

1 丹麦,灵比,丹麦技术大学,诺和诺德基金会生物可持续发展研究中心

划重点

  1. antiSMASH既是数据库,也是可以使用数据库的软件;此文是对数据库更新的描述,最新版为2.0;而调用数据库分析和可视化的软件目前版本为4.0;
  2. antiSMASH可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测;
  3. 本次更新数据库版本2包含6,200个完整细菌基因组和18,576个细菌草图基因组的注释,较上一版数据量提高了6倍;
  4. 支持在线 https://antismash-db.secondarymetabolites.org/  和本地分析。

摘要

ABSTRACT

源于微生物的天然产品经常用于抗菌和抗癌药物、杀虫剂、除草剂或杀菌剂。在过去的几年里,越来越多的微生物基因组数据的可用,使通过基因组挖掘来获取化合物的生物合成簇成为可能。antiSMASH是该领域最流行的工具之一。antiSMASH数据库为许多公开可用的微生物基因组提供预先计算的antiSMASH结果,并允许进行高级跨基因组搜索。AntiSMASH数据库的当前版本2包含6,200个完整细菌基因组和18,576个细菌草图基因组的注释,可从 https://antismash-db.secondarymetabolites.org/ 获取。

Natural products originating from microorganisms are frequently used in antimicrobial and anticancer drugs, pesticides, herbicides or fungicides. In the last years, the increasing availability of microbial genome data has made it possible to access the wealth of biosynthetic clusters responsible for the production of these compounds by genome mining. antiSMASH is one of the most popular tools in this field. The antiSMASH database provides pre-computed antiSMASH results for many publicly available microbial genomes and allows for advanced cross-genome searches. The current version 2 of the antiSMASH database contains annotations for 6200 full bacterial genomes and 18,576 bacterial draft genomes and is available at https://antismash-db.secondarymetabolites.org/.

image

antiSMASH database 2.0主页 https://antismash-db.secondarymetabolites.org/#!/start

背景

INTRODUCTION

大多数抗菌和抗真菌药物,以及许多其他适应症药物,都来自微生物天然产物(1)。传统上,生物活性天然化合物是通过经典的分离和分析方法鉴定出来的。近二十年来,基因组数据的不断增加,使我们能够用基因组角度挖掘的方法,以识别和描述基因组、宏基因组数据中天然产物的生物合成途径(2)。多年来,研究人员一直在使用专门的软件来搜索天然产品(有关此类工具的全面概述/列表,请参阅3-5)。自2011年首次发布以来,antiSMASH(6-9)已成为次级代谢产物基因组挖掘的标准工具,目前是该任务最广泛使用的软件流程,引用超3000次(下图)。

image

antiSMASH使用基于规则的聚类检测方法,通过其核心生物合成酶识别45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合成酶(nonribosomal peptide synthases)、I型聚酮类、萜类、羊毛硫肽化合物(Lanthipeptides)、硫肽(thiopeptides)、囊状肽(sactipeptides)和lassopeptides,antiSMASH还可以对各自的生物合成基因簇(BGCs)产生的化合物提供更详细的预测。将识别出的基因簇与先前使用内置ClusterBlast算法进行antiSMASH预测的簇数据库进行比较。一个类似的算法,KnownClusterBlast被用来比较已识别的簇和从MIBiG(10)数据库中手动管理的已知BGC集。利用直系同原组(smCoG)分类的次级代谢物簇对预测的基因产物进行功能分配。

由于antiSMASH是一个用于分析单个基因组的基因组挖掘流程,因此我们开发了antismash数据库(11),为许多公开的微生物基因组提供基于antiSMASH结果的互连和跨基因组搜索功能。此外,它还为用户提供了即时访问公开可用基因组序列的完整antiSMASH结果的途径。在这里,我们展示了antiSMASH数据库的版本2。使用Antismash版本3生成的版本1的数据库内容已更新为当前Antismash 4.2.1版本的注释。这意味着antiSMASH数据库现在包括更新的检测规则、更新的clusterblast数据库链接、TTA密码子预测、由最新的SANDPUMA软件进行的NRPS-A域预测(12)、萜分类和到MIBiG的改进链接(10)(有关详细信息,请参见9)。此外,还包括了在版本1发布后可用的新序列。antiSMASH数据库的第2版现在包含了6200个完整细菌基因组的基因组挖掘结果,以及NCBI refseq数据库(13)中的18 576个基因组草图。增加的数据集也 改进了搜索功能、数据导出选项和antiSMASH数据库的用户界面的改进。

材料与方法

MATERIALS AND METHODS

基因组数据的选择

Selection of included genomes

微生物基因组资源快速增长,尽管分类上的新基因组经常被释放,但NCBI基因组数据库中存在大量的序列冗余,即数千个主要致病细菌的序列,如铜绿假单胞菌或大肠杆菌。因此,为了创建一组具有代表性的非冗余基因组,我们设计了一种方法来有效更新Antismash数据库,保持其高质量并充分代表自然多样性,而不会显著降低整个管道的速度性能。

antiSMASH注释和数据导入

根据上述选择标准,使用NCBI基因组下载工具(https://github.com/kblin/ncbi-genome-download/)下载GenBank格式的数据集。使用GNU Parallel(14)同时运行多个Antismash 4.2.1的Docker容器。全基因组和部分基因组采用不同的分析参数。对于完整的基因组,运行ClusterBlast、 KnownClusterBlast、SubClusterBlast、ActiveSiteFinder, TTA codon detection 、自动模式下的TTA密码子检测、次级代谢物簇同源组预测和特定簇的详细注释采用如下参数(—clusterblast —knownclusterblast —subclusterblast —asf —tta-auto —smcogs-notree)。对于基因组草图,antiSMASH以快速模式运行,跳过详细的注释。此外,还运行了kKnownClusterBlast、自动模式下的TTA密码子检测和次级代谢物簇同源组预测(—minimal —knownclusterblast —tta-auto —smcogs-notree)。

结果与讨论

表1. antiSMASH数据库基因簇统计与第一版比较

Table 1.
Overview on BGC numbers in version 1 and version 2 of the antiSMASH database

image

表2. antiSMASH数据库第1/2版各类基因簇数量和增加幅度

Table 2.
Changes in cluster counts of the different BGC types between version 1 and version 2 of the antiSMASH database (excluding data from draft genomes)

image

图1. 数据库的统计摘要

Statistic summary of the antiSMASH database version 2

image

(A)基于120个保守蛋白标记(16)的修订版生命树构建的系统发育树。最初的树是使用ETE工具箱(17)通过基因组ID修剪的,只保留属于antismash数据库版本2基因组的叶子。利用iTOL(18)实现了树的可视化和定制。结果表明,24,776个细菌基因组中有12,219个叶片出现在这个系统发育中。彩色环代表了八个最丰富的门;97.6%的基因组外环中的条形图代表每个基因组的BGC数目。

(B)箱线图展示每个门类BGC的数里,顶部的值显示每门完整基因组的总数。

(C)每门五个主要BGC类别的饼图,显示每类细菌产生的天然产物的多样性。

结论

CONCLUSIONS

基因组挖掘是评估微生物生物合成潜力的一种非常有用的方法。自2011年以来,antiSMASH已经帮助研究人员进行了次级代谢物基因组挖掘项目。公共Web服务已经处理了~40万个任务,独立运行的工具也已经下载了超过10000次。antiSMASH数据库允许即时访问许多公开可用的基因组的antiSMASH结果,而不是等待数小时重新运行antiSMASH,并允许对具有特定特征的BGC进行高级跨基因组搜索。

与版本1相比,更新后的版本2的antiSMASH数据库为6200个完整基因组提供了antiSMASH 4.2.1注释,增加了58%,并且新引入了18,576个草图基因组的数据。图形查询生成器允许研究人员交互地制定搜索以回答跨基因组研究问题,而结果以常见的antiSMASH输出格式显示。

数据和代码

DATA AVAILABILITY

antiSMASH数据库可从 https://antismash-db.secondarymetabolites.org/ 下载和使用。对于Web服务器的学术或商业使用没有访问限制。antiSMASH数据库的源代码可在GitHub(https://github.com/antismash)上获得开源许可。

参考文献

1    Kai Blin, Tilmann Weber, Sang Yup Lee, Marnix H Medema, Victòria Pascal Andreu, Emmanuel L C de los Santos & Francesco Del Carratore. The antiSMASH database version 2: a comprehensive resource on secondary metabolite biosynthetic gene clusters. Nucleic Acids Research. 2018, 47: D625-D630. doi:10.1093/nar/gky1060

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1182769.html

上一篇:英国JIC院士组3.8万英镑招博后-植物代谢物与微生物组-截止6月27日
下一篇:还在为投文章发愁吗,也许你更适合审别人的文章——JGG期刊专职编辑招聘(IF 4)
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 07:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部