|
COG / eggNOG / CAZy / KEGG / CARD数据库简介
COG数据库
Clusters of Orthologous Groups of proteins
蛋白质直系同源簇
COG数据库是NCBI开发的用于同源蛋白注释的数据库,是将细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。通过鉴定蛋白与数据库的比对,可以很好的预测蛋白质的功能。
构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。COG数据库按照功能一共可以分为二十六类。
eggNOG 数据库
Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups Database
基因的进化谱系:非监督直系群数据库
eggNOG数据库是NCBI的COG数据库的扩展,它收集了更全面的物种和更大量的蛋白序列数据。同样进行了同源基因聚类分析和对每个同源基因类的描述和功能分类。eggNOG更强大的功能在于:
1. 对更全面的物种和更大量蛋白序列进行分类。相比于COG数据库纯人工且较为准确的分类,eggNOG数据库扩大物种和序列数据量,采用了非监督聚类方法进行计算。
2. 对每个同源基因类进行了系统发育树构建、HMM模型构建、GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。
3. 提供了本地化软件和网页工具进行eggNOG注释。
eggNOG公共数据库V5.0版本搜集了5090个生物(477真核生物、4445个代表性细菌和168古菌)和2502个病毒的全基因组蛋白序列。将这些物种分成了379类(taxonomic levels),每类的编号以NCBI的分类编号表示,例如fungi的编号4751。对各个类别物种的全基因组蛋白序列进行同源基因分类,总共得到4.4M个同源基因类(orthologous groups / OGs)。对每个同源基因类进行了多序列比对、系统发育树构建、HMM文件构建和功能注释。
CAZy数据库
Carbohydrate-Active Enzymes Database
碳水化合物活性酶数据库
CAZy数据库是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。 CAZy数据库中包含了碳水化合物酶类的物种来源、酶功能EC分类、基因序列、蛋白质序列及其结构等信息。
CAZy数据库主要有6个大的分类,如下:
名称 | Name | 缩写 |
糖苷水解酶类 | Glycoside Hydrolases | GHs |
糖苷转移酶类 | Glycoside Transferases | GTs |
多糖裂解酶类 | Polysaccharide Lyases | PLs |
糖水化合物脂酶类 | Carbohydrate Esterases | CEs |
碳水化合物结合模块 | Carbohydrate Binding Modules | CBMs |
辅助模块酶类 | Auxiliary Activities | AAs |
KEGG数据库
Kyoto Encyclopedia of Genes and Genomes
京都基因与基因组百科全书
KEGG数据库是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。
KEGG 数据库于1995年由Kanehisa Laboratories推出 0.1 版,目前发展为一个综合性数据库,其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。在 KEGG ORTHOLOGY 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。
CARD 数据库
The Comprehensive Antibiotic Research Database
抗生素综合研究数据库
CARD 数据库是加拿大生信人员在2013年发布的抗性基因数据库。ARDB是最先整合了各种微生物中抗药基因的数据库,但它从2009年开始就不再更新。而CARD数据库包含了ARDB数据库中所有抗性信息,并搭建了一个基于志愿者贡献的数据共享平台,做到了实时更新保证了数据的有效性。目前,CARD数据库收集了超过1600个已知的抗生素抗性基因。CARD以Antibiotic Resistance Ontology(ARO)为分类单位的形式所构建,其中ARO是数据库所构建term,用于关联抗生素模块及其目标、抗性机制、基因变异等信息。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-28 02:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社