||
[TOC]
宏基因组数据分析中,经常会使用多种多样的数据库,如综述型的有NCBI非冗余核酸或蛋白序列库(NR)、KEGG、COG、eggNOG、RFAM等。专业型的数据库有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等众多数据库。同时基于这些数据库,又开发了很多软件、和在线服务器(web server)方便同行使用。
今天带大家来学习一下CAZy数据库的使用。这里推荐一个今年刚发表在核酸研究(IF>11)的webserver,方便大家鼠标点点,轻松完成宏基因组碳水化合物酶组学的注释。
之前精讲过一篇Science封面文章,如下:
正文仅有3个主图,图2的宏基因组部分就围绕着碳水化合物代谢相关基因组(CAZYome)进行的研究。今天就带大家学习一下它是如何实现。
先回顾一下Science图2的主要结果。
本图主要基于宏基因组测序碳水化合物代谢基因的种类、丰度进行分析,揭示哈扎人菌群功能周期的变化和与现代人的差别。
本图有8个子图分为5组,从5个不同的角度/主题进行说明。
图2. 哈扎人肠道菌群功能随季节周期循环
(A) 箱线图展示宏基因组CAZYome
基因Shannon多样性按季节变化和与现代人比较;
(B) PCA分析CAZYome表明哈扎人与现代间此类基因显著差异即为样品间主要差异;
(C) 动植物碳水化合物/粘多糖占CAZYome中比例在哈扎人和现代人间存在显著差异;
(D) 几种CAZymes丰度在哈扎人中周期变化,以及与现代人比较
(E) 抗生素抗性基因多样性,哈扎人低于现代人,且存在季节周期变化
点评:宏基因组中从整体到类别,可分析的结果很多,但结果是用于服务科学问题和故事主线的。其中饮食的不同,主要影响碳水化合物的比例和组成,以及抗性基因的种类和丰度。因此选定好的逻辑出发点和故事主线是高水平文章的重点,这个别人很难帮你。但你有了好思路,找技术达人合作或与课题负责分析的朋友沟通,那是水到渠成和锦上添花的事,即使花费大量时间去美化都是值得的。当然也可自学差异箱线图绘制。
看完以上结果,我们会感觉工作很漂亮。但如何实现呢?这是一个大问题。我们接下来查找文章的方法。
Science文章,正常只有2-3页,大部分是结果,很少会有版面去描述方法。我们从文章主页下载的补充材料。有宏基因组分析方法描述如下:
宏基因组测序分析
使用DeconSeq去除人类基因组数据。32个HMP人作为对照同哈扎人相同方法分析。DynamicTrim对宏基因组数据质控,FragGeneScan鉴定编码基因。数据采用HUMAnN2分配至KEGG数据库。HMMER 3.0(45)使用dbCAN鉴定CAZymes(46);使用ResFams鉴定抗生素抗性基因(47),E-value < 1e-5。
我们列出了与CAZymes相关分析的方法段落,发现是使用dbCAN工具的HMMER方法鉴定的CAZymes,分别对应了引文45和46。再阅读这两篇文章,找到相关软件和数据库的主页,发现了分析CAZymes的在线服务器dbCAN2,它整合了最新的数据库和三种方法,我们可以轻松在线完成分析。
文章:https://academic.oup.com/nar/article/46/W1/W95/4996582
dbCAN2于今年5月16日在线发表于《核酸研究》杂志(IF=11.561),它是上文Science使用的dbCAN的升级版。知道为什么出2吗?第一版2012年出表至今已经引用571次了。
网址:http://cys.bios.niu.edu/dbCAN2/
dbCAN2宏基因组服务器自动化碳水化合物酶注释。相关的网站有CAZy, CAT(过时)和Hotpep。
dbCAN2的分析的主要步骤如下:
本服务器每年更新一次CAZy数据库。
主页上有5个菜单,分别主页简介(Home)、在线注释(Annotate)、下载本地版(Download)、帮助(Help)和联系作者(About us)
详细的教程可见帮助页。
在线分析基本原理如上图。DNA进行预测蛋白。再进行三种方法(HMM, diamond, hotpep)的预测。
点击Annotate在线注释
下图以蛋白序列为例。核酸序列,软件还会利用Prodigal自动预测蛋白。
点击Submit就等着收结果吧。运行完成见如下页面。即使关闭,会收到结果页的链接。
上面维恩图,是用三种注释方法结果的比较。下面为注释结果的总结,和每种方法的结果。可以下载结果表格。也可以查看每种方法比对结果的详细。
要想查看每种CAZy酶的注释,可以点击蓝色的链接,跳转CAZy官网查看。
基于注释的结果,对我们宏基因组基因丰度矩阵进行筛选,就可以进行CAZyome的分析了。是不是挺容易的。
http://cys.bios.niu.edu/dbCAN2/download/
有本平台所有的软件和数据库,查看README.txt
The Tools directory contains tools used in dbCAN meta server. These include CGC-Finder, the Python verson of Hotpep, and a parser for HMMER.
The Databases directory contains all the databases used in dbCAN meta server. These are CAZy, dbCAN, PPR, tcdb, and tf.
README.txt this file
Tools/
CGC-Finder.tar.gz CGC-Finder program
hmmscan-parser.tar.gz 分析hmm结果文件的脚本Script to parse hmmscan output of dbCAN search
hotpep-python.tar.gz Hotpep program and data
run_dbcan.tar.gz dbcan运行脚本 Script to run a stand alone version of dbCAN meta
Databases/
dbCAN-old@UGA/ Data in the old dbCAN server@UGA
tcdb.fa 转运蛋白注释 transporter proteins annotated at http://www.tcdb.org/
tf.fa 转录因子 transcription factor proteins annotated at collectf DB, RegulonDB, and DBTBS
CAZy.08312018.fa CAZy数据库 GenBank proteins annotated as CAZymes by CAZy
dbCAN-HMMdb-V7.txt 模型 dbCAN HMM DB
碳水化合物蛋白数据库
CAZyDB.07312018.fa 蛋白序列520Mb,可以用diamond比对
序列名为GeneBankID,和分类
AWI06117.1|GT2
CAZyDB.07312018.fam-activities.txt 分类描述文件
AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;
CAZyDB.07312018.pr-with-ec.txt 基因对应酶学编号
AAC00570.1 GT1|2.4.1.195
HMM数据库
dbCAN-HMMdb-V7.txt HMM模型
dbCAN2具体的本地安装涉及较多软件和数据库的布置,有时间写个专门的文章进行讲解。本文讲的在线版分析可以满足大多数同行。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 05:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社