青藤流水不争先分享 http://blog.sciencenet.cn/u/hephaes 莫因诗卷愁成谶,春鸟秋虫自作声

博文

FASTQ格式

已有 7583 次阅读 2014-6-21 21:51 |个人分类:新手上路|系统分类:科研笔记

对于Sanger法测序,最后能拿到一个abi文件,用Chromas之类的软件打开,会看到一堆花花绿绿的峰形图,表示序列的碱基位置。那NGS做完后,能得到啥呢?没错,就是fastq文件。准确的说这种文件格式并不是测序仪产生的最最原始的文件,不过fastq是NGS里面最常用的文件格式之一,一般测序结果都会最终转化成这种格式。可以说fastq格式就是为NGS而生的。


Fastq格式是在fasta格式的基础上进行了的补充。Fasta格式一般是是两个部分:第⼀⾏是注释部分,⽤来标⽰序列,⼀般是以> 开始,以换⾏结束;第⼆⾏开始是序列本⾝,是标准的IUB/IUPAC 格式的氨基酸序列或者核酸序列。大概就是像这个样子:




Fastq格式在fasta的基础上进行了扩充,看起来应该是这个样子的:




Fastq一共有四个部分,第一行是@开头的序列标识以及相关描述信息,一般illumina的测序仪得到的fastq文件,会在第一行记录序列的详细来源,从机器的id,run id,flowcell id...直到tile的坐标。第二行是序列信息;第三行是以+ 开头的,序列标⽰符、描述信息,或者什么也不加;第四行是质量信息,与第二行的碱基一一对应。由ASCⅡ码组成。现在大家普遍接受的阈值是Q20,相当于允许1%的错误率。这个值的计算有多个不同的标准,最常用的是Sanger分数,即Phred(测序质量分数)+33,再转换成ASCⅡ码,如Q20,其Sanger分数为20+33=53,其对应的ASCⅡ码是数字5。Illumina公司前期使用过Phred+64的标准,自CASAVA1.8之后,又重新使用Phred+33。这是一副来自wikipedia的图:





https://blog.sciencenet.cn/blog-1110019-805364.html


下一篇:鹤冲天-柳永
收藏 IP: 193.174.55.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 02:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部