||
一、获取eggNOG注释信息
1、准备蛋白的fasta格式文件,压缩为.gz格式作为输入文件
gzip -c example.fasta > example.fasta.gz
2、提交到网站http://eggnog-mapper.embl.de/
3、用seqkit建立ID和序列长度索引,并导出
seqkit faidx example.fasta -w 0 > example.fasta.fai #-w 0 表示不计空格
4、example.fasta.fai用表格打开,将eggNog_ID-|-length用&连接合并为一个值,
5、在TBtools——sequence Toolkit——Fasta ID Rename,将原ID替换为out.emapper.annotations表格中的eggNog_ID,得到example_eggNog.fa作为输入文件,放在文件夹twelve_spp_proteins/
6、执行CAFE中的python脚本,即可根据长度提取相同功能的最长转录本的蛋白序列
python python_scripts/cafetutorial_longest_iso.py -d twelve_spp_proteins/
二、
1、conda安装packages到定文件夹
conda install -c bioconda eggnog-mapper --prefix=/home/dell/anaconda/ (注意:pretix前是双短杠)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-13 08:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社