ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

12分钟视频,学会判断DNA测序质量好坏

已有 5990 次阅读 2018-1-4 10:53 |个人分类:DNA|系统分类:科普集锦| DNA测序

 本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小丫  来源:嘉因

上期《看18分钟视频,彻底明白全基因组、外显子组、区域捕获测序 | 原理、优缺点、实验设计》很受欢迎,小伙伴儿希望继续公开嘉因生物信息培训课程视频,本期看数据质量。


外显子组测序、全基因组测序、区域捕获测序,啥样的数据质量好?怎样避免产生不好的数据?


Duplicate reads是如何产生的?如何避免?


为什么回帖率低?





听视频,记笔记:


从公司拿到的测序文件长啥样?


fastq文件长这样:




序列回帖前的质控


Q30、duplicate、GC content。其中重复序列比例Duplicates level


  • Duplicated reads:指的是一模一样的序列,这些序列在DNA分析过程中很可能会被去掉;

  • Duplicate reads最好是结合paired-end信息一起看,因为左端可能一样,但右端可能不一样,这样的reads我们不认为是duplicated reads,因为这些reads所对应的fragments是不一样的;

  • DNA fragments打断一般是用超声打断,因为打断位置是随机的,一模一样的reads因此会被认为是被过分扩增产生的冗余信息。





造成duplicated reads的原因


  • PCR bias,由于某个序列被错误的过分扩增,导致duplicated reads变多

  • input DNA的量没有符合建库要求,特别是capture sequencing,你的测序深度越深,所需要的DNA量越多,如果不达标,更多的PCR循环数会将部分DNA反复扩增,导致duplicated reads,冻存样本质量好于FFPE样本

  • 取决于打断方式,超声打断的duplicatedreads应该去掉,酶切有一定偏好性,应综合考虑。

  • 其他原因,包括不同基因组相同的序列打断会增加序列相同的可能,paired-end会避免这部分内容,chr1chr2相同的序列。

 



回帖后的质量控制

 

回帖率、覆盖度、测序深度。其中回帖率mappability

 

  • 一般bwa回帖率在95-99%以上,而bowtie的回帖率相对低一些,主要是criteria差异,因此bowtie更严格一些,主要用于ChIP-seqmappingbwa主要用于基因组序列比对。

 


造成回帖率低的原因

 

  • 基因中混有其他物种DNA,例如PDX模型,即使mapping上也会增加突变检测的假阳性率

  • 软件的参数设置是否合理,容许mismatch数目和penalty

  • barcode或adaptor是否去掉,RNA序列是否用了DNA的mapping软件。





扩展阅读:





https://blog.sciencenet.cn/blog-3372875-1093038.html

上一篇:国自然、毕业论文、遗传咨询一站搞定 | 最全的研究进展COREMINE
下一篇:转录调控期末考试,你能得多少分?
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 05:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部