yzy2020的个人博客分享 http://blog.sciencenet.cn/u/yzy2020 技术体现的是术,可以通过多次练习掌握,不要迷恋术,idea是道,需要通过文献加强训练。总之,孰能生巧!

博文

基因家族收缩与扩张——提取最长转录本序列操作

已有 2395 次阅读 2023-5-16 17:19 |个人分类:linux学习|系统分类:科研笔记

一、获取eggNOG注释信息

1、准备蛋白的fasta格式文件,压缩为.gz格式作为输入文件

gzip -c example.fasta > example.fasta.gz

2、提交到网站http://eggnog-mapper.embl.de/

图片.png

3、用seqkit建立ID和序列长度索引,并导出

seqkit faidx example.fasta -w 0 > example.fasta.fai   #-w 0 表示不计空格

4、example.fasta.fai用表格打开,将eggNog_ID-|-length&连接合并为一个值,

5、在TBtools——sequence Toolkit——Fasta ID Rename,将原ID替换为out.emapper.annotations表格中的eggNog_ID,得到example_eggNog.fa作为输入文件放在文件夹twelve_spp_proteins/

6、执行CAFE中的python脚本,即可根据长度提取相同功能的最长转录本的蛋白序列

python python_scripts/cafetutorial_longest_iso.py -d twelve_spp_proteins/

二、

1、conda安装packages到定文件夹

conda install -c bioconda eggnog-mapper  --prefix=/home/dell/anaconda/
(注意:pretix前是双短杠)


https://blog.sciencenet.cn/blog-3434047-1388254.html

上一篇:[转载]泛基因组学习
下一篇:[转载]【链接】估算系统树分歧时间 —— paml.mcmctree,r8s
收藏 IP: 221.11.67.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-13 08:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部