不积小流 , 无以成江海 !分享 http://blog.sciencenet.cn/u/xiongchaoliang

博文

fasta与fastq格式文件解读

已有 14921 次阅读 2014-12-3 22:32 |个人分类:【测序概述】|系统分类:科研笔记

1FASTA文件的格式

在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。

FASTA文件以序列表示和序列作为一个基本单元,各行记录信息如下:

第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。;

从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

2FASTQ文件格式

FASTQ是基于文本的、保存核酸序列和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

FASTQ文件中以四行最为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:

第一行记录序列标识以及相关的描述信息,以‘@’开头,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性;

第二行为碱基序列;

第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;

第四行,是质量信息,长度和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。



https://blog.sciencenet.cn/blog-1509670-848275.html

上一篇:cytocape软件的使用
下一篇:用R做heatmap图(附代码)
收藏 IP: 159.226.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-13 15:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部