|||
本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome
作者:小丫 来源:嘉因
上期《看18分钟视频,彻底明白全基因组、外显子组、区域捕获测序 | 原理、优缺点、实验设计》很受欢迎,小伙伴儿希望继续公开嘉因生物信息培训课程视频,本期看数据质量。
“外显子组测序、全基因组测序、区域捕获测序,啥样的数据质量好?怎样避免产生不好的数据?”
“Duplicate reads是如何产生的?如何避免?”
“为什么回帖率低?”
听视频,记笔记:
从公司拿到的测序文件长啥样?
fastq文件长这样:
序列回帖前的质控
Q30、duplicate、GC content。其中重复序列比例Duplicates level
Duplicated reads:指的是一模一样的序列,这些序列在DNA分析过程中很可能会被去掉;
Duplicate reads最好是结合paired-end信息一起看,因为左端可能一样,但右端可能不一样,这样的reads我们不认为是duplicated reads,因为这些reads所对应的fragments是不一样的;
DNA fragments打断一般是用超声打断,因为打断位置是随机的,一模一样的reads因此会被认为是被过分扩增产生的冗余信息。
造成duplicated reads的原因
PCR bias,由于某个序列被错误的过分扩增,导致duplicated reads变多
input DNA的量没有符合建库要求,特别是capture sequencing,你的测序深度越深,所需要的DNA量越多,如果不达标,更多的PCR循环数会将部分DNA反复扩增,导致duplicated reads,冻存样本质量好于FFPE样本
取决于打断方式,超声打断的duplicatedreads应该去掉,酶切有一定偏好性,应综合考虑。
其他原因,包括不同基因组相同的序列打断会增加序列相同的可能,paired-end会避免这部分内容,chr1和chr2相同的序列。
回帖后的质量控制
回帖率、覆盖度、测序深度。其中回帖率mappability
一般bwa回帖率在95-99%以上,而bowtie的回帖率相对低一些,主要是criteria差异,因此bowtie更严格一些,主要用于ChIP-seqmapping,bwa主要用于基因组序列比对。
造成回帖率低的原因
基因中混有其他物种DNA,例如PDX模型,即使mapping上也会增加突变检测的假阳性率
软件的参数设置是否合理,容许mismatch数目和penalty
barcode或adaptor是否去掉,RNA序列是否用了DNA的mapping软件。
扩展阅读:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 05:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社