||
1,第一代测序技术:
链终止法(Sanger):准确度高,读取长度1000bp,高成本,低通量。
OLC策略:以read为结点,以overlap关系为边构成的图中寻找一条Hamilton路径。
主要步骤:
overlap:计算 reads 两两之间的 overlap,若存在 overlap,则在对应的 reads 之间连一条边,从而得到 overlap graph;
layout:的主要操作包括移除图 中的传递边(transitive edge)和存在歧义的边,并将化简后的路径作为 contig 输 出。
consensus:负责回贴 reads 得到所有路径在 DNA 上的排列。
2,第二代测序技术(测序序列太短):边合成边测序(SBS),高度并行,提高了通量、降低了成本,读长短,错误率高(1%)。
paired-end(双末端测序):只测短片段两端的序列,并控制双端序列之间的距离。
mate_end:片段长度较长的序列对
通过上述两种技术可获得更长跨度的序列信息,然而还是无法跨越一些长度很长的repeat.
二代数据的特征使直接使用overlap延伸变得不可能,现在的拼接软件都是基于de Bruijn图策略。
de Bruijn图:将read数据打断成小的kmer(建图的关键是k的取值),并作为边构建de Bruijn图,然后在de Bruijn图中寻找欧拉路径。(核心优势:采用hash技术保存kmer以及de Bruijn图,避免了read之间两两计算overlap的缺点)
3,第三代测序技术
read长,错误率高:5%-15%
4,限制性酶切作图技术:可获得更长序列信息,完善并验证二代拼接结果。
基于微流体溶液(利用纳米单分子测序,与荧光酶切位点)
(1)酶切位点的遗失:14.17%
(2)距离误差,检测出的酶切位点间的距离与真实距离存在偏差
5,序列拼接方法
序列拼接方法主要分为两类:从头拼接(de novo)以及匹配拼接(mapping assembly)
de novo拼接算法:通过测序得到了reads片段,通过重叠、连接和组装等步骤,试着重建原始的DNA序列。
mapping拼接指的是利用已知的同源基因组作为参考,将测序的read回帖到参考基因组上,从而拼接得到DNA序列。
术语与基本概念:
短片段的获得过程可以看成对基因组的随机采样。
覆盖度:基因组上每一个位置被测试的次数。
base coverage(碱基覆盖度):基因组上的每个位置被reads覆盖的次数
kmer coverage(kmer覆盖度):reads上的kmer被覆盖的次数
两者都服从poisson分布。
genome coverage(基因组覆盖率):用于衡量拼接结果序列覆盖基因组序列的百分比。
scaffolds:一段连续的碱基的序列,但可能存在一些gap
contig:一段连续的碱基的序列
N50,N90:N50 和 N90是拼接结果长度的统计量,常用于衡量拼接 结果的优劣。类似于但不同于中位数,N50 表示这样一个数,长于这个数的拼接 结果长度总和至少占整个基因组的 50%;N90 定义类似。直观上看,N50 越长, 表示拼接结果长的越多。针对 contig 和 scaffold,分别有 contig N50、N90 和 scaffold N50、N90。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 04:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社