|
上篇文章中我们为大家介绍了,原始数据质控的原因和主要流程,其中涉及到了一个叫“碱基质量值”的概念,本文就为大家讲一讲什么叫做碱基质量值。
碱基质量中的质量非物理学中的“质量”,碱基质量值(quality score,Q-score),在生物物理学中是碱基识别出错概率的整数映射,Q=-10*lgP,其中P为碱基识别出错的概率。简单点来说是,在下机数据中每个序列的每个碱基都有一个质量值信息,我们通过识别这个质量值信息就可以了解到这个碱基被识别出错的概率是多少。
其实,碱基的质量信息我们可以在数据的原始文件中查看到的。
二代测序平台双端测序获得的原始数据为fastq(或为压缩文件fq.gz)格式,每个样本有 fq1 和 fq2 两个文件,文件中为测序两端的 reads信息,序列通常按顺序一一对应。
文件中每条 read 包含 4 行信息,其中第一行和第三行由文件识别标志和读段名(ID)组成(第一行以“@”开头,第三行以“+”开头;第三行中 ID 可以省略,但“+”不能省略),第二行为碱基序列,而第四行是第二行中的序列内容每个碱基所对应的测序质量值。
如下所示:
我们发现碱基序列对应的质量值都为单个的符号和字母,并非数字,要想了解质量值的实际数值我们需要破译一下。
碱基对应的质量值符号实际为ASCII码,需要将每个碱基对应的字符在ASCII码对照表中找到其对应的十进制数字,减去33即可得该碱基质量(Phred33体系)。
(图片来源:百度百科)
举个例子:
序列的第一个碱基的质量值为C,对应的十进制数值为67,67-33=34,Q=-10*lgP计算得P(碱基识别出错的概率)得0.0004。
质量值为20(常写作Q20),计算得P=0.01,测序正确率99.99%,质量值为30(常写作Q20),计算的p=0.001,测序正确率99.999%,既碱基质量越高,被测错的概率越低。
我们可以搜索二代测序仪器平台官网,查看各个测序仪器得到的碱基质量值区间。
(图片来源:Illumina官网)
Q30>85%代表序列中质量值大于30的碱基所占比例大于85%
好啦,碱基质量值的基本概念就介绍到这里了,下期再会。
更多微生态相关文章:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 08:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社