Kevin2015的个人博客分享 http://blog.sciencenet.cn/u/Kevin2015

博文

全外显子组生信分析流程-4-数据质控

已有 5274 次阅读 2019-3-21 21:30 |个人分类:全外显子项目|系统分类:科研笔记

数据质控

测序数据的产生经过了DNA提取、建库、测序等多个步骤,这些步骤会产生低质量或者无效的数据,需要对下机的原始数据进行质控。

1.原始序列数据解读

高通量测序得到的原始图像数据经过碱基识别(base calling)分析转化为原始测序序列(reads),我们称之为raw data,结果以fastq文件格式存储,该文件包含序列信息和序列的质量信息。一条read由4行描述:

第1行:以@开头,随后是Illumina测序标识符(sequence identifier)进而描述性文字(上机相关信息);

第2行:序列“ATCGN”,N指未识别碱基;

第3行:+

第4行:碱基的测序质量,与第2行对应。

图片.png

第四行数值换算方法是,每个字符对应的ASCII值-33,即为碱基质量值。

如果测序错误率用e表示,比如1/1000,Illumina Hiseq的剪接质量值用Qphred表示,Qphred=-10log10(e)

2.测序数据过滤(raw data to clean data)

测序得到的raw data会有少量reads包含接头信息、低质量碱基,为了保证后续分析,数据过滤主要成对去除一下三种情况的reads:

1) 含有接头序列(Adapter)的 Reads;

2) 单端 Read 中N(N表示无法确定碱基信息)的碱基个数超过该条 Read 碱基总 数的 10%的 Reads;

3) 单端 Read 中低质量(质量值低于 5)碱基数超过该条 Read 长度比例的 50%的。

图片.png

3. 测序错误率分布检查

碱基质量值和错误率对于关系如下:

图片.png

总结:reads两端的错误率会高,中间低,如果中间高说明有问题。

图片.png

4.测序数据质量分布

测序数据质量主要分布在Q30以上占比80%,这样的数据才能保证后续的分析

5.测序数据质量情况汇总

根据Illumina平台测序特点,要求Q30在80%以上,平均error rate在0.1%一下。

图片.png







https://blog.sciencenet.cn/blog-2609994-1168869.html

上一篇:全外显子组生信分析流程-2-测序流程简介
下一篇:全外显子组生信分析流程-5-mapping流程代码
收藏 IP: 159.226.149.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-28 02:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部