||
对于Sanger法测序,最后能拿到一个abi文件,用Chromas之类的软件打开,会看到一堆花花绿绿的峰形图,表示序列的碱基位置。那NGS做完后,能得到啥呢?没错,就是fastq文件。准确的说这种文件格式并不是测序仪产生的最最原始的文件,不过fastq是NGS里面最常用的文件格式之一,一般测序结果都会最终转化成这种格式。可以说fastq格式就是为NGS而生的。
Fastq格式是在fasta格式的基础上进行了的补充。Fasta格式一般是是两个部分:第⼀⾏是注释部分,⽤来标⽰序列,⼀般是以> 开始,以换⾏结束;第⼆⾏开始是序列本⾝,是标准的IUB/IUPAC 格式的氨基酸序列或者核酸序列。大概就是像这个样子:
Fastq格式在fasta的基础上进行了扩充,看起来应该是这个样子的:
Fastq一共有四个部分,第一行是@开头的序列标识以及相关描述信息,一般illumina的测序仪得到的fastq文件,会在第一行记录序列的详细来源,从机器的id,run id,flowcell id...直到tile的坐标。第二行是序列信息;第三行是以+ 开头的,序列标⽰符、描述信息,或者什么也不加;第四行是质量信息,与第二行的碱基一一对应。由ASCⅡ码组成。现在大家普遍接受的阈值是Q20,相当于允许1%的错误率。这个值的计算有多个不同的标准,最常用的是Sanger分数,即Phred(测序质量分数)+33,再转换成ASCⅡ码,如Q20,其Sanger分数为20+33=53,其对应的ASCⅡ码是数字5。Illumina公司前期使用过Phred+64的标准,自CASAVA1.8之后,又重新使用Phred+33。这是一副来自wikipedia的图:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 01:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社