|
染色体序列长度可以用于分析基因在染色体上的相对位置长度,也可以用于对比近缘物种的染色体大小。
要找染色体序列的长度,一般有两种方法:
从文献和基因组网站上陈列的信息中找
从染色体序列文件中分析
第一种方法容易理解,这里重点谈一下第二种方法,也就是怎么从染色体序列文件中去分析染色体序列文件。一般而言,一个已经发布的基因至少包含组装的染色体序列的FASTA格式的文件、注释基因的GFF文件。至于CDS序列文件、蛋白质序列文件、内含子序列文件等都可以从染色体序列的FASTA格式文件和注释基因的GFF文件中提取出来。
那么怎么从组装的染色体序列的FASTA格式文件中提取出各个染色体序列的长度呢?本质上是统计FASTA格式序列文件中各条序列的长度。根据操作方法也可以分为两种方法:
通过图形界面的软件分析FASTA格式的文件,比如BioEdit、Genious、UGene等。一般情况下把FASTA序列导入到这些软件中后,软件会分析序列长度等信息。
通过命令行工具分析FASTA格式文件,比如 p5-bpwrapper中的 bioseq -l 命令,seqtk comp命令;或者自己利用BioPerl、BioPython、BioRuby、BioJava等编程语言的程序包自己写一些小脚本。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 09:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社