lyao222lll的个人博客分享 http://blog.sciencenet.cn/u/lyao222lll

博文

列举一些次级代谢物基因簇相关的数据库

已有 2932 次阅读 2019-10-27 20:48 |个人分类:数据库/在线网站|系统分类:科研笔记| _在线网站, _数据库, _结构基因组, _功能基因组

列举一些次级代谢物基因簇相关的数据库

 

次级代谢产物,或称天然产物,是由生物体产生的化合物,对于机体的正常生长不是必不可少的。这些次级代谢产物中有许多在医药、农业等领域起着重要的作用。近年来,基因组挖掘方法已被广泛应用于鉴定和表征生物合成基因簇。

本文列举在次级代谢物基因簇研究中常用的一些数据库,包括BAGEL4antiSMASHPRISMMiBiGNaPDosBactibaseRiPPMinerNP.searcher等,可通过它们查询目标类型的基因簇或次级代谢产物资源,以及实现对目标基因组序列的注释。

 


BAGEL4


BAGEL4是一个在线数据库,帮助我们挖掘并可视化原核生物基因组中参与核糖体合成的和翻译后修饰的多肽(RiPPs)以及产细菌素的基因簇。网站还提供了整合RNA-Seq数据,启动子和终止子预测功能,以及建立了与外部数据库(如UniProtNCBI)的链接。我们能够很方便地使用它研究原核生物基因组。

BAGEL4之前还有3个版本,BAGEL4是目前最新的,链接:http://bagel.molgenrug.nl/index.php/databases

 

基因簇在线注释


注释数据库包括uniref90数据库的原核部分,并扩展了先前BAGEL3的蛋白数据库,其记录了RiPPs的共有蛋白结构域信息。

进入BAGEL4网站主界面后,点击下方的绿色按钮“Start BAGEL Analysis”,跳转新界面,上传我们的基因组即可,fasta文件格式。允许上传多个文件,最多可以上传50 Mb

可选同时上传RNA表达数据,详见界面链接“BedGraph Track”中的说明。

1.png

提交后等待几分钟,差不多就能看到结果了。

注意当前任务结束之前,是无法提交下一个任务的。不过如上述,可以一次提交多个基因组。

2.png

3.png

点击AOI中的条目,查看预测到的基因簇。

如下展示了BAGEL4产生的示例图,展示了基因簇的结构。基因显示为箭头,颜色代表了类型,并通过鼠标悬停显示描述信息(包括指向BLAST的链接)。在左侧可下载本次分析的结果文件。

4.png

如果在上传基因组时,同时提供了RNA表达数据,将在底部(蓝色)展示基因表达谱,如下所示。

5.png

 

核心肽在线BLAST


BAGEL4提供了核心肽数据库,方便我们通过在线BLAST的方法鉴定核心肽。18BAGEL4文章发表时,包含近500RiPPBacteriocin I),230种未修饰的细菌素(acteriocin II)和90种抗菌蛋白(Bacteriocin III),且仍在不断更新中,大多数提供了NCBIUniProt可用查询。

对于上传的fasta文件,因为数据库中的参考序列肯定是蛋白序列,而我们寻找的也是核心肽段,所以推荐直接上传基因编码的蛋白序列,会比上传核酸序列更高效且准确。

6.png

这个BLAST过程很快就出结果了。

结果中展示了目标序列间的序列比对详情,同时标注出有关修饰和桥接模式信息,数据库记录的前导肽以深灰色突出显示,修饰的残基以星号表示。

7.png

 

其它相关链接


BAGEL4中点击上方“Links”,可以跳转先前的版本,以及相关的其它同样可用于注释基因簇的数据库或软件。

8.png

 


antiSMASH


antiSMASH旨在分析基因组的次级代谢产物合成基因簇,包含细菌、真菌和植物。自2011年首次发布以来,antiSMASH已成为次级代谢物基因组挖掘的标准工具,并且是目前使用最广泛的工具。2019年初,antiSMASH数据库也已经更新到第2版了,新版收录了6200个细菌基因组完成图和18576个草图基因组的注释,提供了更新的SANDPUMA检测规则、ClusterBlast数据库链接、TTA密码子预测、NRPS-A域预测、萜类的分类以及MIBiG的改进链接。

antiSMASH使用基于规则聚类检测,通过核心生物合成酶来鉴定45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合酶(nonribosomal peptide synthases)、I型聚酮化合物(type I polyketides)、萜类(terpenes)、羊毛硫肽(lanthipepteptides)、硫肽(thiopeptide),半乳糖肽(sactipepteptides)和套索肽(lassopepteptes),antiSMASH还提供了对它们生物合成基因簇(BGC)产物的更详细的预测。antiSMASH使用内置的ClusterBlast算法,将识别的目标簇与antiSMASH数据库中已知簇进行比较;KnownClusterBlast算法将识别的目标簇与MIBiG数据库中已知簇进行比较。直系同源组(smCoG)分类的次级代谢产物簇用于为预测的基因簇中的基因产物分配功能。

 

数据库资源检索


链接:https://antismash-db.secondarymetabolites.org/

通过该数据库我们可以很方便地检索已知的基因簇资源。不过貌似这个链接中暂时只支持检索细菌的。

9.png

点击“Query”输入关注的特定基因簇类型名称执行检索即可,将展示数据库中所有存在该基因簇的物种(如果检索到),再点击目标物种查看细节。

10.png

以及通过物种检索基因簇,点击“Browse”根据物种分类查找关注的细菌物种,或者直接输入物种拉丁名查询,将展示数据库中该物种基因组中的基因簇信息(如果检索到)。之后再点击目标基因簇查看细节。

11.png

 

基因簇在线注释


在线注释链接:http://antismash.secondarymetabolites.org/

支持细菌、真菌和植物基因组的次级代谢产物基因簇预测,这里以某细菌基因组为例。推荐上传gbkembl格式的基因组文件(如果有的话),因为它们相较于fasta文件内容齐全,如蛋白编码基因序列是已知的,注释更加准确。

12.png

提交后等待运行就可以了,允许同时打开多个页面提交任务。

对于细菌这种小基因组注释的话也就十分钟不到就结束了。

13.png

Overview”展示了该基因组中所有鉴定到的次级代谢产物基因簇的概要信息,包含了其在基因组中的位置、与数据库中最相似的基因簇名称、相似度及功能。右上方点击“Download”下载本次对基因组在线注释的所有结果文件。

14.png

点击某特定的基因簇,将展示其详细信息,包括该基因簇中所包含的基因结构及类型等。点击其中的基因区段,右方将展示出对该基因的描述。图中点击右上方“Download region GenBank file”可单独下载该基因簇的注释结果。

15.png

下方则展示了不同的算法所鉴定到的结构特征。

16.png

 

基因簇本地注释


antiSMASH同时提供了本地版本,并打包了一些列的工具,供我们在本地注释基因组。本地版已经打包在bioconda里面了,安装使用起来也非常方便,我以前也整理过方法,可见:http://blog.sciencenet.cn/blog-3406804-1156761.html

也有源码从头安装的方式,实在是太麻烦了,就不考虑它了。

 


PRISM


PRISM用于识别生物合成基因簇,预测遗传编码的非核糖体肽、I型和II型聚酮化合物以及已知天然产物的合成基因。PRISM实施了新颖的算法,通过一个包含479个隐马尔可夫模型的库识别与天然产物生物合成和抗性相关的酶域,并将其归类为假定的生物合成基因簇。

PRISM链接:http://grid.adapsyn.com/prism/#!/prism

 

基因簇在线注释


每次登陆PRISM时,都需要先输入一次邮箱,才可使用。

17.png

之后上传基因组文件,设定好参数后提交任务。推荐上次gbk格式的基因组文件(如果有的话),因为它相较于fasta文件内容齐全,如蛋白编码基因序列是已知的,注释更加准确。我们这里同样以某细菌的gbk格式的基因组文件为例。

18.png

提交成功后,会往你邮箱(登陆时输入的那个)里发送邮件,需要点开邮件确认任务执行,注意每个邮箱的使用次数是有限的。确认后,等待运行就可以了,这个网站运行的比较慢,要等十几分钟。

在此期间,不要再使用新窗口打开PRISM,不然会要求你重新输入邮箱登陆,此时,先前正在执行的任务也将会全部丢失。所以,PRISM一次只能等待当前任务结束后才能提交下一个。

 

结束后,展示了基因组中所有鉴定到的基因簇的结构和类型概要。

19.png

从中点击某簇,查看详情。展开对基因簇的结构和功能,以及其中所含基因的类型及编码产物的详细描述。

20.png

21.png

 


MiBiG


MIBiG为生物合成基因簇及其分子产物的注释和元数据提供了一个通用标准,它建立在有关任何序列框架的最低信息上,定义了基因簇的一般参数以及特定类别途径化合物类型的特异性参数。

MIBiG的标准已广泛应用于各类生物合成途径,包括细菌、古细菌、真菌和植物的生物合成途径,并收录了一些列物种的基因簇及产物信息。我们可以很方便地在其中检索或下载已知的基因簇或次级代谢物资源。

MIBiG链接:https://mibig.secondarymetabolites.org

 

数据库资源检索


MIBiG数据库的界面和上文提到的antiSMASH很相似,因此信息检索方式也差不多。既可以根据基因簇、次级代谢物类型检索,也可以根据物种来检索。

22.png

 

基因簇注释


对于基因组的注释,如上文提到,MIBiG已经打包在antiSMASH中,因此可通过antiSMASH实现目标基因组与MIBiG数据库的比对,实现基因簇的查询与预测。

 


NaPDos


NaPDos是用于快速检测和分析次级代谢产物基因的生物信息学工具,旨在检测核酸或氨基酸序列数据中的CKS域。所分析的序列既可以是序列集,也可以是整个基因组,或者宏基因组数据集。

NaPDos链接:http://napdos.ucsd.edu

 

基因簇在线注释


Tutorial”中展示了NaPDos程序的工作流程,“Overview”中有对天然产物、聚酮和非核糖体肽、KSC结构域等的具体概念描述,可点击查看帮助了解基础。

23.png

 

对于在线注释,在主界面点击“Run Analysis”后,提交待注释的序列,选择注释选项。这里仍然以某细菌基因组为例。

24.png

点击“SEEK”提交后,再点击“SUBMIT JOB”运行任务。

25.png

对于细菌很快就出结果了。

结果中展示了预测的产次级代谢物基因,次级代谢物类型,并可输出选定的基因序列,以及构建进化树查看基因簇分枝等。

26.png

 


Bactibase


Bactibase数据库收录了由革兰氏阳性菌(206)和革兰氏阴性菌(19)产生的230种细菌素的特征,通过该数据库可以轻松检索各种细菌素,以及快速预测这些肽的结构/功能与目标生物之间的关系。同时,该数据库中提供的微生物理化和结构特性也允许我们对特定的肽进行更全面的结构和功能分析。

Bactibase链接:http://bactibase.hammamilab.org/main.php

 

我们可通过数据库检索及下载所需的资源。如上述提到的,细菌素数据、理化数据、结构数据等。

27.png

由于该数据库更重点关注的是细菌素本身,而不是基因组,所以该数据库没有像上述一系列数据库那种直接的基因组注释的功能,但我们可以上传部分序列与数据库中的序列进行相似性搜索比对,推测目标序列的功能,以及预测三级结构等。通过“Tools”中一些列工具实现。

28.png

 


RiPPMiner


RiPPMiner主要通过预先训练好的机器学习模型(包含13个子类的500多种经过实验表征的RiPP作为训练集),预测RiPPs的化学结构。

RiPPMiner通过支持向量机将RiPP前体与其它小蛋白区分开来,并将前体分类为RiPP12个亚类。对于脂肽(lanthipeptide)、蓝细菌素(cyanobactin)和套索肽(lassopeptide)等,预测前导裂解位点,最后在核心肽中预测出复杂的交联和翻译后修饰的残基;对于硫肽(thiopeptide),预测交联和修饰残基。使用机器学习从多种组合可能性中识别出目标RiPP核心肽中正确的翻译后修饰和交联模式,具有高灵敏度、特异性、准确性和精密度。此外,RiPPMiner还提供GUI工具可视化预测的化学结构,并搜索与给定的肽序列或给定的化学结构相似的表征RiPP

RiPPMiner链接:http://www.nii.ac.in/~priyesh/lantipepDB/new_predictions/index.php

 

数据库“DATABASE”中主要收录了已知RiPPs的化学结构,以及产RiPPs的肽段结构、来源物种等信息,我们可通过数据库检索及下载所需的资源。

29.png

对于序列在线预测,我们可上传氨基酸序列,将它们与数据库中的肽段进行相似性比对以推测RiPP类型及功能,以及执行RiPP裂解和交联预测等。也可以输入目标RiPP的化学结构,通过寻找结构相似的RiPP,进行结构预测。这些功能通过 TOOLS”中的一系列在线工具实现。

30.png

 


NP.searcher


NP.searcher是一种在基因组数据中识别IPKSNRPS和混合PKS/NRPS的工具,并使用已知的信息来预测生物合成基因簇(BGC)编码的代谢物的结构。

NP.searcher链接:http://dna.sherman.lsi.umich.edu

 

基因簇在线注释


网站界面非常简洁,上传序列,设置参数后,点击“Submit job”运行即可。

31.png

之后会给出一个任务链接,需等待一会儿后,再点击链接查看结果就可以了。

结果也是比较简略。

32.png

 


参考文献


Li M H, Ung P M, Zajkowski J, et al. Automated genome mining for natural products. Bmc Bioinformatics, 2009, 10(1):185-0.

Kai B, Pascal Andreu Victòria, de los Santos Emmanuel L C, et al. The antiSMASH database version 2: a comprehensive resource on secondary metabolite biosynthetic gene clusters. Nucleic Acids Research(D1):D1.

Medema M H, Kottmann R, Yilmaz P, et al. Minimum Information about a Biosynthetic Gene cluster. Nature Chemical Biology, 2015, 11(9):625.

Priyesh A, Shradha K, Money G, et al. RiPPMiner: a bioinformatics resource for deciphering chemical structures of RiPPs based on prediction of cleavage and cross-links. Nucleic Acids Research(W1):W1.

Skinnider M A, Dejong C A, Rees P N, et al. Genomes to natural products PRediction Informatics for Secondary Metabolomes (PRISM). Nucleic Acids Research, 2015:gkv1012.

van Heel Auke J, de Jong Anne, Chunxu S , et al. BAGEL4: a user-friendly web server to thoroughly mine RiPPs and bacteriocins. Nucleic Acids Research(W1):W1.

Ziemert N, Podell S, Penn K, et al. The Natural Product Domain Seeker NaPDoS: A Phylogeny Based Bioinformatic Tool to Classify Secondary Metabolite Gene Diversity. PLoS ONE, 2012.

Zouhir A, Hammami R, Fliss I, et al. A New Structure-based Classification of Gram-positive Bacteriocins. The Protein Journal, 2010, 29(6):432-439.

 



http://blog.sciencenet.cn/blog-3406804-1203647.html

上一篇:原核生物基因组CRISPRs序列预测的几种常用工具
下一篇:三代测序基因组组装工具MECAT2/NECAT

2 郑永军 范欢

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-12 18:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部