|
(一) 文库(library)构建
1. 末端修复(3‘末端添加碱基A)
建库第一步是使用Taq聚合酶补齐不平的断裂末端,并在两个末端添加突出的碱基A,从而产生粘性末端(若使用Taq酶扩增,则无需末端修饰),产生粘性末端的片段可以添加接头(adaptor)。
2. 添加接头
经过末端修饰后的PCR片段末端具有突出的A尾,而接头具有突出的T尾,可以使用连接酶将接头添加到DNA片段两端。
adaptor含有碱基U连接的环状结构。还需要将碱基U删除从而形成“Y”形接头。每一端接头是两条不互补的序列(每一端都是Rd1 SP与Rd2 SP交错)。
3. 磁珠纯化
添加接头后的文库体系中含有聚合酶、连接酶等各种酶以及辅助物质,接头的添加也是过量的,而且由于末端的不稳定性,容易形成自连片段,鸟枪法打断的片段中也可能有大片段存在,所以需要特殊磁珠(AMPure XP Beads)纯化来去除大片段以及各种杂质,从而获得成功添加接头的文库片段。其原理为磁珠可以通过氢键等作用力来吸附DNA片段,磁珠本身不具有片段大小选择的能力,但其储存的buffer里面含有20%的PEG 8000,PEG浓度越大则可以吸附的DNA片段越小。因此磁珠纯化的时候要根据文库片段不同严格控制磁珠添加量(其实是PEG添加量)来实现片段选择。
4. PCR扩增
添加了接头的DNA片段,可以使用与接头互补的引物来扩增。这个过程非常重要,因为目前所有片段其两端是不互补的Y形结构,不能直接进行测序;此外,片段还需要添加用于区分不同文库的特异性index,以及与测序仪芯片互补的两种寡核苷酸序列(P5/P7)。
5. 第二次磁珠纯化
PCR后需要将产物DNA片段与聚合酶等杂质分离,因此再次进行磁珠纯化,之后进行质量检测,包括DNA浓度检测、琼脂糖凝胶电泳和片段长度检测,完成建库。
第2,4步骤过程详见下图:
建库完成后的每条DNA的单链均一端连有测序引物Rd1SP、Index2和P5; 另一端为Rd2SP、Index1和P7。 | |
(二) 上机测序
1. 以寡核苷酸为引物、文库片段为模板进行DNA复制
因为文库稀释后浓度足够低,可以认为文库片段均匀的结合在流通池表面,每个片段结合的位置相距足够远(即每条文库模板有足够的成簇空间),这很重要,否则测序时会导致信号叠加而不能识别。复制完成后解链,将文库片段洗去,留在流通池表面的为与文库模板互补的DNA序列。
2. “桥”式扩增成簇(cluster)
假如第1步结合的为寡核苷酸链P5’,则复制完成洗脱模板后顶端可以与相邻的寡核苷酸链P7互补结合形成“桥”,并以寡核苷酸链P7为引物进行复制,完成后再次解链并与相邻不同种接头结合来进行复制,如此类推,过程如下图。25-28个循环完成后,原来散布在表面的单核苷酸序列变成散布的DNA簇,这一步主要是为后续测序做准备,因为测序时单分子产生的光信号很弱,难以检测。
3. 测序要保证每个片段一致性(都是正向或都是反向),切割并洗去P5’上的DNA链,只留P7上的DNA单链。
Illumina巧妙地利用了甲酰胺基嘧啶糖苷酶Fpg对8-氧鸟嘌呤糖苷8-oxo-G的选择性切断作用,在合成的引物链上加入了一个8-oxo-G,用Fpg处理,就把带8-oxo-G基团切掉,并把DNA链切断,留下一带不完整糖基的磷酸基。这个磷酸基在接下来的过程中,起到了阻止P5’延伸的作用。此后的双末端测序中需要恢复3'-OH,则用脱嘌呤嘧啶内切核酸酶AP-endonuclease把带不完整糖基的那个磷酸基切掉。
4. 加入测序引物Read1 SP(Read1测序引物结合位)和修饰过的DNA聚合酶,则在测序引物3’端开始DNA复制。
在流通池加入可逆终止荧光dNTP,其3'-OH被阻隔(糖基3'连接有叠氮基团,在链延伸时起到了阻止添加下一个dNTP作用,因此在除去阻隔前只能添加一个碱基),4种dNTP在碱基上分别连接有不同颜色的荧光基团(也可以相同颜色荧光标记,但是测序会更慢,每次只能添加一种碱基)。之后洗掉多余的dNTP,使用激光扫描,收集留在流通池表面的荧光信号(如图1-6所示)。用巯基试剂去掉3’位阻断的叠氮基团,用TCEP(Tris(2-carboxyethyl)phosphine,三(2-羧乙基)膦)去掉荧光基团,进入下一个碱基的测序反应。因为每条DNA单链扩增形成的DNA簇均固定在表面,随着反应进行根据相同位置出现的荧光信号情况,就逐渐读出了改位点DNA链的序列。
5. 读取index信息。
Read1测序结束后,解链并洗掉测序中已经合成的部分,加入测序引物Index引物(也即Read2 SP互补的寡核苷酸),这时会继续在3’端进行复制,读出接头中Index序列,从而可以确定出每个DNA簇属于哪个文库。
6. 双末端测序,加入测序引物Read2 SP,进行另一端的序列读取。
洗掉前面复制合成的片段,DNA单链继续在流通池表面形成桥式连接,这时要用脱嘌呤嘧啶内切核酸酶处理修复P5’的3’-OH末端,加入聚合酶,则在P5’末端开始DNA复制。十几个循环后,将P7上的DNA切割并洗掉。Illumina通过在P7核酸链中加入一个U碱基,用USER酶(Uracil Specific Excision Reagent,尿嘧啶链特定切断试剂)来切隔断链。这时只留下P5’上的DNA链,与Read中方向相反。加入测序引物Read2 SP,进行另一端的序列读取。
第4,5,6步骤过程如下:
(三) 测序数据
一般我们接触到的测序数据为fastq格式的碱基序列,然而早期Illumina平台直接下机数据为bcl格式文件,其储存的是显微拍摄得到的荧光信号信息,如下所示(此图为不同碱基使用相同荧光标记的扫描结果)。将相同区域不同时间拍摄的荧光图片按照时间顺序叠加处理,就可以获得该位点结合的DNA序列的碱基顺序。
【补充】
基因组DNA 随机打断片段化(DNA Fragment或DNA insert) DNA 打断方法:机械打断、超声波打断,酶解法打断等。常见的文库长度有 170bp 文库、350bp 文库、500、800、2k、5k、6k 甚至更长的 10K,20K 等,一般 1000bp 以下,称为小片段文库,否则是大片段文库。 注意,我们说 500bp 文库,这个 500 只是一个峰值。也就是里面大部分的片段在 500bp 附近,并不是每条片段都刚好是 500bp,可能有 300, 的,也可能有 800 的。在打断之后会有一个电泳的过程,将在一定范围内的回收。如果是 500bp 文库,可以回收 300-800bp 长度的片段。这个文库大小特别重要,也叫做插入片段长度 insert_size。在后面序列拼接,短序列比对的过程中会大量用到这个值。 |
鸟枪法:将大分子的目标DNA随机地处理成大小不同的小片段进行测序,并在后续的生物信息学分析中将这些短序列组装成目标DNA的技术方法。 |
传统方法:使用限制性内切酶对目标DNA上的限制性内切酶识别位点进行切割,从而形成小片段。 |
常用方法:使用机械法(例如超声波DNA破碎)使大分子DNA形成在一定长度范围内分布的短序列片段。 |
Adaptor (接头)
| 包括P5/P7、Index以及R1 SP/R2 SP序列。一般结构呈“Y”字型。“Y”型接头保证了每条单序列两端均为不同的测序引物,从而可以通过后续的PCR扩增形成两端带有不同核苷酸序列(P5/P7)的文库。 | |
长接头(完整的Y型)和短接头(不完整的Y型接头)。长接头通过TA连接的方式连接到待测DNA片段两端,在文库产量足够的情况下,可不进行PCR扩增直接上机测序;而短接头通过TA连接的方式连接到待测DNA片段两端后,必须使用与短接头互补的Indexing Primers进行PCR扩增成为完整接头后,才能上机测序。 | ||
P5/P7 | Illumina测序使用的微阵列芯片叫做流通池(flow cell),其表面固定了无数条寡核苷酸oligo(P5’和P7),分别可以与P5、P7’互补结合。这样,当样品文库中的DNA单链进入流通池后,就通过其3’端的P5结合到了附着在流通池表面的P5’上。 Flowcell 上随机分布了两种不同的寡核苷酸oligo,分别与 P5 互补(即 P5') , 与 P7 相同(即 P7)。待测 DNA 文库加入后,接头上的 P5 与 flowcell 上的寡核苷酸P5’互补,以待测序列为模板进行互补链(即 reverse strand)的延伸,扩增DNA两端为 P5’和 P7’。 | |
Index或 barcodes(BC) | 或者Barcode(BC),一般6-8bp,用于区分来自不同样本的DNA片段的标签序列就叫做index。 index1和index2也是不同的,与P5相连的是index2(i5),与P7相连的是index1 (i7)。 Index用来区分不同的文库,因为测序仪一个run产生数据量巨大,由于实际情况不同,一次上机常会进行多个文库测序,因此需要加上Index来区分。 | |
Rd1SP/Rd2SP或 SP1/SP2 | 分别是第一轮测序引物和第二轮测序引物结合位点。双端测序就是从两端相向读取DNA的序列,需要在待测DNA的两端都加上引物了,是Read1和Read2测序引物结合的区域(sequencing primer binding site1/2<测序引物结合位点>)。 |
单端Index文库指文库结构中只有一端(一般是在P7端)含Index结构;双端Index文库指文库P5和P7端都含Index。 单端Index和双端Index能够影响最终混库数量。 | |
双端index接头 | 单端index接头 |
常用的建库试剂盒型号:NEBNext®Ultra™ II DNA Library Prep Kit for Illumina®
【参考】
高通量测序中的接头(adapter)到底是什么 - 卖萌控的博客 (maimengkong.com)
第二代测序原理的详细解析! - 知乎 (zhihu.com)
干货 | 测序入门:接头家族大揭秘! - 知乎 (zhihu.com)
头条文章 (weibo.com):干货 | Index这件小事,你get了吗?
illumina SBS测序详解_sixu_9days的博客-CSDN博客
二代测序原理的初步了解 - 简书 (jianshu.com)
illumina 二代测序原理及过程_taotaotao7777777的博客-CSDN博客_illumina二代测序原理
illumina测序接头类型 - 知乎 (zhihu.com)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 18:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社