|||
glimmer(Gene Locator and Interpolated Markov ModelER)
1.1简介
Glimmer是用于寻找微生物DNA,特别是细菌、古菌和病毒中的基因。其采用的方法为内插马尔科夫模型(interpolted Markov model,IMM)来识别编码区域和非编码区域。已经经历了1.0,2.0版本,现在为3.0版本。
1.2官网、下载地址和安装方法
http://ccb.jhu.edu/software/glimmer
下载的tar.gz压缩包解压后进入rsc子文件夹,使用make编译即可。
1.3使用方法
1、将一个fasta格式文件中的多条序列合并成一条
sed -e '/>/d' [input_file] |tr -d 'n' |awk 'BEGIN {print ">[seq_id]"}{print $0}' > [output_file]
方括号及其中参数需要自行添加
2、创建训练模型
Glimmer一般使用三种方法创建训练模型:a.用亲缘关系很近的物种的基因;b.用自身序列创建的orf数据;c.用基因组本身的已知信息。这里我们采用自身数据作为训练数据。
(1)产生长orf数据
long-orfs -n -t 1.15 genom.seq run1.longorfs
-n 输出文件去除首行,只包含orf
-t 熵距离得分阈值,小于阈值才被保留
输入genom.seq 输出run1.longorfs
(2)提取数据集
extract -t genom.seq run1.longorfs > run1.train
(3)生成预测模型
build-icm -r run1.icm < run1.train
3、基因预测
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1
-o 最大重叠片段长度阈值,小于阈值保留
-g 基因片段长度阈值,大于阈值保留
-t orf得分阈值,大于阈值保留
4、根据预测结果提取序列
extract -t genomseq run1.predict > predict.fasta
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-21 09:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社