||
背景介绍
染色质免疫共沉淀技术(Chromatin Immunoprecipitation),是一类通过将与特定蛋白质与其结合DNA序列共同沉淀下来研究其相互作用的方法,这一方法和测序技术结合起来,可以研究转录因子在基因组上的结合区域、特异性修饰的组蛋白位点以及其他DNA结合蛋白的基因组特异结合位点等表观遗传性学问题。ChIP-Seq技术是在ChIP-on-Chip的基础上发展来的,相对于ChIP-on-Chip来说,ChIP-Seq有很多优势:更高的通量;更低廉的价格;双通道ChIP-Seq可以弥补单通道带来的GC偏向问题,产生更加可靠的数据。
下图为ChIP-Seq的实验流程图
数据分析流程
数据分析流程图
一.数据基本质量分析
对Raw reads进行质量分析和控制,去除低质量的reads以及各种污染片段,如测序接头、PCR引物、外源DNA片段等;常用软件有fastx_tookit、BIGpre、FastQC等。
二.峰值的定位(Peak calling)
对于不同的数据质量,可以选择相对合适的mapping方法,包括允许不同的mismatch数目等等以得到比较可靠的数据。然后基于这些定位到基因组上的序列和其丰度,找到那些有统计学意义的位点峰值(peak calling)。
取map到基因组上的reads计算测序覆盖度等,常用软件有bowtie/bowtie2、bwa、tophat等;对map到基因组上的reads进行peak calling,常用软件有CisGenome、E-RANGE、MCPF、HPeak、MACS、SISSRS、mtc、wtd、PeakSeq、QuEST、Sole-Search等。
三.Binding motif分析
一般的DNA结合因子都是特异性的,有特定的结合基序,对于检测到的峰值序列,我们进行DNA binding motif分析,以期验证或者得到新的DNA结合因子binding motif。
识别转录因子结合位点,motif富集分析,常用软件有MEA、MEME-ChIP等。
四.和annotation library的分析对比
Peak calling在基因组中的位置在已知注释信息中的分布可以显示DNA结合蛋白的结合偏好性,我们会给出基于不同注释库的分布信息。R的CheappeakAnno包可以对peaking calling的结果进行注释并统计。
五.基因本体学分析(GO Analysis)
对于特定的转录因子,其DNA结合位点的下游转录基因在特定试验条件下可能会行使相似的功能,GO分析会找出富集的那些可能的功能。GO富集分析软件推荐使用DAVID或者GOEAST、TargetMine,他们都是在线工具,操作便捷。Rclusterprofiler包也可以实现本地富集分析,如下图所示的。
六.通路分析(Pathway Analysis)
DNA结合蛋白的靶基因有可能会富集在特定的生物信号通路或者代谢通路里面,利用富集检测的统计手段,可以推测出DNA结合因子在特定的环境下所可能行使的生物学功能。通路富集分析推荐使用DAIVD、TargetMine等,下图为利用R的clusterprofiler包构建的通路图。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-25 05:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社