|
我们在通过基因组从头预测后,获得gff3文件。在gff3文件中,我们可看到组装的contig或scafford上的基因结构。从gff3文件中,我们无法得到基因的功能信息。此时,我们需要对已知结构的基因进行功能注释。
功能注释,即通过核酸或蛋白序列的比对,获得我们组装的参考基因组的基因功能。我们可以在NCBI或uniport等数据库下载核酸或蛋白序列,通过linux的文本处理,将gff3文件中的蛋白序列提取出来,形成新的fasta文件。使用blast软件,将下载的蛋白数据库建立索引,然后对fasta与蛋白数据库进行blast,得到基因的功能信息(得到结构基因的ID号)。获得基因的ID号之后,我们便可以对基因组进行GO或KEGG富集分析。为后续的比较基因组学研究做准备。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 07:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社