liyanbo的个人博客分享 http://blog.sciencenet.cn/u/liyanbo

博文

DNA测序技术与基本拼接方法

已有 16861 次阅读 2016-8-13 10:15 |个人分类:基因序列拼接|系统分类:科研笔记

1,第一代测序技术:

      链终止法(Sanger):准确度高,读取长度1000bp,高成本,低通量。      


OLC策略:以read为结点,以overlap关系为边构成的图中寻找一条Hamilton路径。

主要步骤:

overlap:计算 reads 两两之间的 overlap,若存在 overlap,则在对应的 reads 之间连一条边,从而得到 overlap graph;

layout:的主要操作包括移除图 中的传递边(transitive edge)和存在歧义的边,并将化简后的路径作为 contig 输 出。

consensus:负责回贴 reads 得到所有路径在 DNA 上的排列。





2,第二代序技术(测序序列太短):边合成边测序(SBS),高度并行,提高了通量、降低了成本,读长短,错误率高(1%)。

           paired-end(双末端测序):只测短片段两端的序列,并控制双端序列之间的距离。

            mate_end:片段长度较长的序列对

通过上述两种技术可获得更长跨度的序列信息,然而还是无法跨越一些长度很长的repeat.


二代数据的特征使直接使用overlap延伸变得不可能,现在的拼接软件都是基于de Bruijn图策略。


de Bruijn图:将read数据打断成小的kmer(建图的关键是k的取值),并作为边构建de Bruijn图,然后在de Bruijn图中寻找欧拉路径。(核心优势:采用hash技术保存kmer以及de Bruijn图,避免了read之间两两计算overlap的缺点)




3,第三代测序技术

read长,错误率高:5%-15%




4,限制性切作:可获得更长序列信息,完善并验证二代拼接结果。

基于微流体溶液(利用分子序,与切位点)

(1)切位点的失:14.17%

(2)距离差,检测出的酶切位点间的距离与真实距离存在偏差


5,序列拼接方法

序列拼接方法主要分为两类:从头拼接(de novo)以及匹配拼接(mapping assembly)

de novo拼接算法:通过测序得到了reads片段,通过重叠、连接和组装等步骤,试着重建原始的DNA序列。

mapping拼接指的是利用已知的同源基因组作为参考,将测序的read回帖到参考基因组上,从而拼接得到DNA序列。



术语与基本概念:

短片段的获得过程可以看成对基因组的随机采样。

覆盖度:基因组上每一个位置被测试的次数。

base coverage(碱基覆盖度):基因组上的每个位置被reads覆盖的次数

kmer coverage(kmer覆盖度):reads上的kmer被覆盖的次数

两者都服从poisson分布。

genome coverage(基因组覆盖率):用于衡量拼接结果序列覆盖基因组序列的百分比。

scaffolds:一段连续的碱基的序列,但可能存在一些gap

contig:一段连续的碱基的序列


N50,N90:N50 N90是拼接结果长度的统计量,常用于衡量拼接 结果的优劣。类似于但不同于中位数,N50 表示这样一个数,长于这个数的拼接 结果长度总和至少占整个基因组的 50%;N90 定义类似。直观上看,N50 越长, 表示拼接结果长的越多。针对 contig scaffold,分别有 contig N50N90 scaffold N50N90






https://blog.sciencenet.cn/blog-1515646-996191.html

上一篇:C++基本概念
下一篇:二分查找
收藏 IP: 159.226.43.*| 热度|

4 蔡小宁 李南生 张亮生 岳东晓

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 04:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部