李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

生物信息学FAQ:怎样找染色体序列的长度

已有 11712 次阅读 2016-7-25 10:58 |系统分类:科研笔记

染色体序列长度可以用于分析基因在染色体上的相对位置长度,也可以用于对比近缘物种的染色体大小。

要找染色体序列的长度,一般有两种方法:

  1. 从文献和基因组网站上陈列的信息中找

  2. 从染色体序列文件中分析

第一种方法容易理解,这里重点谈一下第二种方法,也就是怎么从染色体序列文件中去分析染色体序列文件。一般而言,一个已经发布的基因至少包含组装的染色体序列的FASTA格式的文件、注释基因的GFF文件。至于CDS序列文件、蛋白质序列文件、内含子序列文件等都可以从染色体序列的FASTA格式文件和注释基因的GFF文件中提取出来。

那么怎么从组装的染色体序列的FASTA格式文件中提取出各个染色体序列的长度呢?本质上是统计FASTA格式序列文件中各条序列的长度。根据操作方法也可以分为两种方法:

  1. 通过图形界面的软件分析FASTA格式的文件,比如BioEdit、Genious、UGene等。一般情况下把FASTA序列导入到这些软件中后,软件会分析序列长度等信息。

  2. 通过命令行工具分析FASTA格式文件,比如 p5-bpwrapper中的 bioseq -l 命令,seqtk comp命令;或者自己利用BioPerl、BioPython、BioRuby、BioJava等编程语言的程序包自己写一些小脚本。



https://blog.sciencenet.cn/blog-656335-992645.html

上一篇:rate和ratio在用法上的区别
下一篇:sci-hub的有效网址
收藏 IP: 218.94.137.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 09:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部