||
MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing)测序是基于抗体富集原理进行测序的全基因组甲基化检测技术,采用甲基化DNA免疫共沉淀技术,通过5'-甲基胞嘧啶抗体特异性富集 基因组上发生甲基化的DNA片段,然后通过高通量测序可以在全基因组水平上进行高精度的CpG密集的高甲基化区域研究。
研究人员可以利用MeDIP-Seq技术快速有效地寻找基因组上的甲基化区域,从而比较不同细胞、组织或疾病样本间的DNA甲基化修饰模式的差异。
技术策略:
技术优势:
■ 精确度高:基因组位点定位精确性可达± 50bp。
■ 可靠性高:直接对甲基化片段进行测序和定量,无交叉反应和背景噪音。
■ 检测范围广:全基因组范围内甲基化区域研究。
■ 高性价比:通过抗体富集高甲基化区域进行测序,有效降低测序费用。
技术路线:
MeDIP-seq生物信息学分析
将测序结果与参考基因组比对,比对上唯一位置的序列用于后续标准信息分析及个性化分析。信息分析流程如下:
生物信息分析流程图,首先要对测序数据进行去接头去低值处理,然后进行比对分析,采用唯一比对的reads进行下一步分析。之后对唯一比对reads在基 因组,基因元件的分布进行分析。检测到唯一比对的reads的富集区(Peak),并对Peak进行分析。最后进行差异Peak的分析。
1. Data clean
测序完成后,去污染,去接头及去除低质量数据。
数据产出统计信息
样品名称 | read长度(bp) | reads数量 | 原始数据(Gb) |
a | 49 | 24,489,796 | 1.2 |
b | 49 | 24,489,796 | 1.2 |
c | 49 | 24,489,796 | 1.2 |
2. MeDIP-Seq序列与参考序列的比对
将MeDIP-Seq序列与参考基因组进行比对,每条read最多容许2个碱基的错配,生成最终比对结果文件 *.sop。
比对信息统计
样品名称 | 原始reads数量 | 比对reads数 | 比对率(%) | 有效链深度 | 唯一比对reads数 | 唯一比对率(%) |
a | 24,489,796 | 21,449,285 | 87.58 | 2.82 | 12,199,426 | 49.81 |
b | 24,489,796 | 21,759,594 | 88.85 | 2.86 | 12,328,166 | 50.34 |
c | 24,489,796 | 21,979,358 | 89.75 | 2.89 | 12,193,301 | 49.79 |
有效链深度=比对bases数/基因组参考序列大小
唯一比对率=唯一比对reads数/原始reads数量
3. MeDIP-Seq数据的全基因组分布趋势
3.1 MeDIP-seq 测序 reads 在全基因组上的覆盖深度
计算全基因组上每一个碱基的覆盖深度,得到不同覆盖深度下的碱基百分比,即不同覆盖深度下的碱基对应基因组的覆盖度。
覆盖深度:特定位点被测序 reads 所覆盖的次数。例如某一个位点上的覆盖深度为 10X,则表明这个位点被测序 reads 覆盖了 10 次。而对于特定的 DNA 区域,或者全基因组范围,则可以计算平均覆盖深度。
基因组覆盖度:符合特定条件的碱基数所能覆盖的全基因组碱基数的比例。下图中横轴表示测序深度,纵轴表示不低于这一特定测序深度的基因组覆盖度。
3.2 MeDIP-seq 测序 reads 在 CpG 位点上的覆盖深度
MeDIP-seq 测序reads在CpG位点上的覆盖深度计算全基因组上每一个CpG(Watson链,Crick链,双链)的覆盖深度,得到不同覆盖深度下CpG位点的 覆盖度,即一定覆盖深度以上的CpG位点在MeDIP-seq所测得的全部CpG位点中所占比例。
3.3 MeDIP-Seq测序reads在不同基因功能元件上的分布
对测序reads在9种基因组功能元件上的分布进行比较分析,有助于了解不同功能元件的甲基化修饰特征。这9种功能元件包括CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k。另外,在此基础上对Repetitive Elements区域进一步细分,统计reads在不同类型Repeat区域的分布情况。
横轴表示不同基因区域,纵轴表示分布在特定基因区域的reads占可比对reads总数的比例。
reads在不同基因功能元件上的分布
reads 在重复区域的分布情况
3.4 MeDIP-seq 测序 reads 在不同 GC 含量区域中的分布
以200bp大小的窗口对基因组进行扫描,计算MeDIP-Seq序列在不同GC含量的窗口的分布情况,可以反映出测序数据在不同GC含量区域的富集性分布特征。
下图中横轴代表不同GC含量区域,纵轴代表特定GC含量区域的reads总数占所有可比对reads总数的比例。
4. 统计 MeDIP-seq 数据富集区域 ( Peak ) 的信息
对 MeDIP-seq 序列进行 Peak 扫描,并进行相关统计分析。
4.1 Peak 扫描
全基因组范围扫描寻找Peak区域,得到Peak在基因组上的位置信息。
表3-3 Peak信息统计
样品名称 | Peak 数量 | Peak平均长度 | Peak长度中位数 | Peak总长度 | Peak覆盖度 |
a | 41,554 | 1,237.80 | 1,108 | 51,435,436 | 13.81% |
b | 43,020 | 1,200.41 | 1,065 | 51,641,544 | 13.87% |
c | 43,358 | 1,251.26 | 1,109 | 54,252,026 | 14.57% |
4.2 寻找 Peak 相关基因
根据Peak扫描的结果,寻找Peak相关基因。
4.3 统计Peak在不同基因功能元件上的分布
分别统计Peak在upstream2k,first exon,first intron,internal exons,internal introns,last exon,downstream2k等7个基因功能元件上的个数分布和覆盖度分布。
下图中横轴表示各个功能元件区域,纵轴表示特定功能元件所包含的peak个数。
下图中横轴表示各个功能元件区域,纵轴表示特定功能元件区域所包含的peak在该区域的覆盖度(即覆盖碱基数与该区域碱基总数的比值)。
将每个基因元件按长度平均分成10份,以曲线图的形式反映每一个功能元件区域的 peak覆盖度变化趋势。
5. 基于 Peak 的多样品间差异性分析
5.1分析两个样品间的 peak 相关差异基因
基于两个样本的MeDIP测序数据,针对各基因功能元件区域的Peak覆盖度做差异分析,找到具有差异的基因。
筛选条件为:p值≤0.05,两个样本在相同基因元件内都有覆盖,且覆盖度的差异在 4 倍以上。下述表格中的数值表示差异基因个数。
# of genes | A vs B |
upstream2k | 833 |
first exon | 65 |
First intron | 559 |
Internal exons | 517 |
Internal introns | 78 |
Last exon | 220 |
downstream2k | 731 |
5.2 对两个样品间的差异基因进行GO功能富集分析及pathway功能分析
Peak相关差异基因所具有的功能聚类,代表两个样品在特定生物学功能上具有与DNA 甲基化修饰相关的差异性。下图为差异基因的GO功能分析结果。横轴代表GO功能分类项,左纵轴代表与GO相关的基因的比例,右纵轴代表与GO相关基因的数 量,每一个特定功能分类项中均列出两个样品在此功能分类下的分布情况。
图中所标down与up,是将sample1与sample2进行比较后所得到的内容,sample2覆 盖度高于sample1的基因即为up-methylated,反之则为down-methylated。
6. 个性化信息分析
根据客户具体项目需求进行个性化分析。
案例分析:
MeDIP-Seq发现种子发育过程中重复元件广泛的去甲基化是基因印记的基础
在植物中,基因印记现象往往发生在胚乳中。研究人员以两个拟南芥品种Col- gl和Ler各自的胚和胚乳为材料,利用medIP测序的手段对全基因组的甲基化谱进行研究。发现伴随着胚乳的发育以及胚乳特异的一些基因的表达发生了大 规模甲基化的变化。胚乳中重复元件发生了广泛的去甲基化。并且,通过将胚乳中甲基化程度降低的区域与胚乳表达偏好性(preferential expression in endosperm)关联起来作为候选印记基因的方式,寻找到了新的印记基因。所有的结果说明植物中印记的发生来源于在基因调控元件附近插入重复元件的甲 基化以及之后的正向选择的原因。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 22:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社