ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

快做ATAC-Seq实验吧!生信人都等着挖掘数据呢!

已有 10601 次阅读 2018-1-4 09:55 |个人分类:ATAC-seq|系统分类:科普集锦| ATAC-seq

 

本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小丫  来源:嘉因

话说ATAC-seq最近火得一塌糊涂。这篇搜罗了植物里所有的ATAC-seq数据和文章《新!加这个实验给你的paper加5分 | 植物ATAC-seq文章和数据都在这里》。以文中的No. 4为例,生信江湖人称“日更”的徐洲更同学写出了ATAC-seq数据分析教程,重现了No. 4这篇文章的分析过程。


转载来自生信媛的这篇《ATAC-Seq 数据分析一文就够(上)》。期待(下)吗?拿出诚意来!




背景: 染色质和染色体的结构和功能



每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装,否则就是一团乱麻,不利于DNA复制和表达调控。这种有序的状态才能保证基因组的复制和表达调控能准确和高效进行。

包装分为多个水平,核小体核心颗粒(nucleosome core particle)、染色小体(chromatosome)、 30 nm水平染色质纤丝(30 nm fibre)和高于30 nm水平的染色体包装。在细胞周期的不同时期,DNA的浓缩程度不同,间期表现为染色质具有转录活性,而中期染色体是转录惰性。细胞主要处于分裂间期,所以DNA大部分时间都是染色质而不是染色体,只不过大家喜欢用染色体泛指染色质和染色体。


很久之前大家喜欢研究中期的染色体,原因是光学显微镜只能看的到这种高度浓缩状态的DNA结构。不过中期染色体在转录上是惰性的,没有研究间期染色体的意义大。后来技术发展了,大家就开始通过荧光蛋白标记技术以及显微镜技术研究间期染色质的三维结构和动态。比如说,间期染色体其实并非随机地弥漫在细胞核中,不同的染色体占据相对独立的空间,染色体在细胞核所占的空间称之为染色体领地(chromosome territory, CT)。研究发现,贫基因(gene-porr)的染色体领域一般倾向于靠近核膜,而富含基因(gene-rich)的染色体领地通常位于细胞核内部。这也反应了人类社会的情况,富人处于核心区,穷人在边缘地带。

除了染色体细胞核内的三维结构外,还需要谈谈和转录调控相关的染色质的核小体。用内切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase, MN酶)处理染色质可以得到单个核小体。核小体是染色质的基本结构,由DNA、蛋白质和RNA组成的一种致密结构。组蛋白是由2个H3-H4二聚体,2个H2A-H2B二聚体形成的八聚体,直径约为10 nm, 组蛋白八聚体和DNA结合在一起形成的核心颗粒包含146bp DNA。DNA暴露在核小体表面使得其能被特定的核酸酶接近并切割。


染色质结构改变会发生在与转录起始相关或与DNA的某种结构特征相关的特定位点。当染色质用DNA酶I(DNase)消化时,第一个效果就是在双链体中特定的超敏位点(hypersenitive site)引入缺口,这种敏感性可以反映染色质中DNA的可及性(accessible),也就是说这些是染色质中DNA由于未组装成通常核小体结构而特别暴露出的结构。

许多超敏位点与基因表达有关。每个活性基因在启动子区域都存在一个超敏位点。大部分超敏位点仅存在于相关基因正在被表达的或正在准备表达的细胞染色中;基因表达不活跃时他们则不出现。



染色质开放区域和ATAC-Seq



背景已经谈到,超敏位点和基因表达有关,并且超敏位点反映了染色质的可及性。也就可以反推出“可及性”的染色质结构区域可能与基因表达调控相关。于是2015年的一篇文章Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNDNA-binding proteins and nucleosome position就使用了超敏Tn5转座酶切割染色质的开放区域,并且加上接头(adapter)进行高通量测序。

那篇文章通过ATAC-Seq得到了如下结论:

  • ATAC-seq insert sizes disclose nucleosome positions

  • ATAC-seq reveals patterns of nucleosome-TF spacing

  • ATAC-seq footprints infer factor occupancy genome wide

  • ATAC-seq enables epigenomic analysis on clinical timescales

也就是说ATAC-Seq能帮助你从全基因组范围内推测可能的转录因子,还能通过比较不同时间的染色质开放区域解答发育问题。



数据分析概要



在前面的铺垫工作中,一共提到了三种酶,能切割出单个核小体的MNase,能识别超敏位点的DNase和ATAC-Seq所需要的Tn5 transposase,这三种酶的异同如下图:


图片来源于Reveling in the Revealed

分析ATAC-Seq从本质上来看和分析ChIP-Seq没啥区别,都是peak-calling,也就是从比对得到BAM文件中找出reads覆盖区,也就是那个峰。(尴尬的是,这句话对于老司机而言是废话,对于新手而言则是他们连ChIP-Seq都不知道)那么问题集中在如何找到peak,peak的定义是啥?

“Peak不就是HOMER/MACS2/ZINBA这些peak-finder工具找到的结果吗?”

找Peak就好像找美女,你觉得美女要手如柔荑,肤如凝脂,领如蝤蛴,齿如瓠犀,螓首蛾眉,巧笑倩兮,美目盼兮。但实际情况下,是先给你看一个长相平平的人或者有点缺陷的人,然后再把那个人PS一下,你就觉得是一个美女了。理想情况下, peak应该是一个对称的等腰三角形,并且底角要足够的大。实际情况下是稍微不那么平坦似乎就行了。

假设目前已经找到了peak,这是不是意味着我们找到转录因子了?不好意思,这不存在的,因为ATAC-Seq只是找到了全基因组范围的开放区域,而这些开放区域的产生未必是转录因子引起,所以需要一些预测性工作。



数据分析实战

基本信息



以目前预发表在bioRxiv的文章“Chromatin accessibility changes between Arabidopsis stem cells and mesophyll cells illuminate cell type-specific transcription factor networks” 为例,介绍ATAC-Seq数据分析的套路。

GEO编号:GSE101940,一共6个样本,SRR为SRR5874657~SRR587462

实验设计:用INTACT方法提取植物干细胞(stem cell)和叶肉细胞(mesophyll cells)的细胞核,然后通过ATAC-Seq比较两者在转录因子上的差别。 INTACT技术提供数据的利用率,因为ATAC-Seq主要是分析染色体的开放区域,所以比对到细胞器的序列在后期分析中会被丢弃。

分析流程:分为数据预处理,Peak-calling和后续分析三步。



数据预处理



数据预处理步骤分为:质量控制,原始序列比对,比对后去除重复序列和细胞器序列。当然在这之前,先得做一下准备工作,创建工作环境,从SRA下载数据并进行数据解压。

# 创建项目文件下mkdir -p ATAC-Seq/{data/raw_data,analysis,script,ref}# 使用sra-tool prefetch下载数据, 数据保存在~/ncbi/public/srafor i in`seq 57 62`;do    prefetch SRR5874${i}&done# 数据下载完,用fastq-dump解压for i in`seq 57 62`;dofastq-dump --split-3--defline-qual '+'--defline-seq '@$ac-$si/$ri length=$rl'--gzip SRR5874${i}-O data/raw_data &done

质量控制:在数据分析之前先要大致了解手头数据的质量,目前基本就用fastqc了

mkdir -p analysis/fastqcfor i in`seq 57 62`;do fastqc data/raw_data/SRR58746${i}_{1,2}.fastq.gz -o analysis/qc &done# multiqc汇总multiqc analysis/qc/-o analysis/qc/

FastQC结果大部分都过关,除了在read的各位置碱基含量图上fail。具体原因我还不知道,文章中并没有提到要对原始数据进行预处理。



序列比对: 目前在Peak-calling这里分析的流程中,最常用的比对软件就是Bowtie, 分为Bowtie1和Bowtie2,前者适合25~50bp,后者适用于 > 50bp的情况。此处分析的read长度为50 bp,因此选择bowtie1。

使用之前建议先看看两个工具的手册,了解一下参数说明。我也是通过Bowtie2的手册才发现Bowtie2和Bowite其实是两个用途不同的工具,而不是说bowtie2是用来替代bowtie1.

# 下载或者链接已有的参考基因组到ref文件下ln -s ~/db/Genomes/Athalina/TAIR10/Sequence/TAIR10.fa ref/# 建立BOWTIE2 index,或者下载已有的index, 或软连接已有的索引bowtie-build --threads 8 ref/TAIR10.fa  ref/TAIR10# 注意不要用bowtie2-build# 序列比对for i in`seq 57 62`;dobowtie -p 10-S -m 1-X 2000  --sam-RG "ID:sample_${i}" \--sam-RG "PL:illumina"--sam-RG "SM:SRR58746${i}" \ref/TAIR10 \-1<(zcat data/raw_data/SRR58746${i}_1.fastq.gz) \-2<(zcat data/raw_data/SRR58746${i}_2.fastq.gz)| \samtools sort -@6-m 1G-o analysis/BAM/SRR58746${i}_sorted.bam ;done&# 建波索引ls analysis/BAM/*sorted.bam |while read id;do sambamba index -t 6 $id ;done

这里使用Bowtie比对到拟南芥参考基因组TAIR10,参数为-X2000, 允许长达2 Kb的片段, -m1仅保留唯一联配。

初步比对后,可以统计下比对到organellar genomesh和nuclear genome的read数量。这个工具可以在shell脚本中用samtools处理,也可以用python的pysam模块。Pysam封装了htslib C-API,提供了SAM/BAM/VCF/BCF/BED/GFF/GTF/FASTA/FASTQ的操作,最新版本已经支持Python3,强烈推荐学习。

在script目录下新建alignment_stat.py, 添加如下内容

import pysamimport globimport osimport numpy as npfrom pandas importSeries,DataFrame# 利用glob读取文件路径bam_files = glob.glob('../analysis/BAM/*sorted.bam')threads ="10"# 统计每条染色体的reads数Chrs=['Chr1','Chr2','Chr3','Chr4','Chr5','ChrM','ChrCh']reads_count =DataFrame(np.ones((len(Chrs),len(bam_files))),index=Chrs,columns=bam_files)# 需要索引for bam in bam_files:    reads_count[bam]=[int(pysam.view("-@", threads,"-c", bam,Chr).strip())forChrinChrs]    sam.close()reads_count = reads_count.Treads_count['nuc_ratio']= np.sum(reads_count.iloc[:,:5],axis=1)/ np.sum(reads_count.iloc[:,:],axis=1)reads_count['org_ratio']= np.sum(reads_count.iloc[:,5:],axis=1)/ np.sum(reads_count.iloc[:,:],axis=1)print(reads_count)

运行 python alignment.py,得到如下结果:


比对后去(标记)重复和细胞器reads:由于细胞器DNA蛋白结合少,所以显然更容易被Tn5 转座酶切割,普通的ATAC-Seq的read就会有大量是细胞器的DNA,这就是为啥需要用INTACT技术。此外如果不是PCR-free的建库方法,会有大量重复的read,也就需要标记去除重复。

bigwig定量文件: 使用deepTools进行标准化和可视化, 一般以RPKM做标准化,默认bin为1

# 项目文件下# 标记重复mkdir -p analysis/dupbamfilenames=$(ls analysis/BAM/*sorted.bam)for fn in ${filenames}do    fnn=$(basename $fn)    output=${fnn%%.bam}    gatk-launch MarkDuplicates-I ${fn} \        -O analysis/dupbam/${output}_nuc_markdup.bam \        -M analysis/dupbam/${output}_nuc_markdup_matrix.txtdone# bigwig, 必须要有索引mkdir -p analysis/bigwigmarkdup_files=$(ls analysis/dupbam/*_markdup.bam)for markdup in ${markdup_files}do    fn=$(basename $markdup)    output=$(fn%%.bam)    sambamba index -t 6 $markdup    bamCoverage -b $deup --ignoreDuplicates \    --skipNonCoveredRegions \    --normalizeUsingRPKM \    --binSize 1-p 5-o analysis/bigwig/${output}.bwdone




数据预处理可视化



在数据预处理这一部分,可以用IGV看BAM文件,截图基本上也就很好了。




https://blog.sciencenet.cn/blog-3372875-1093021.html

上一篇:美帝国自然NIH资助啥?lncRNA/CRISPR screen趋势
下一篇:单细胞ATAC-seq | 果蝇ATAC-seq数据和文章都在这里
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

IP: 59.73.208.*   | 璧� 璧� +1 [10]鐜嬪厓   2012-2-19 15:13
鎴戝ぇ瀛︽湰绉戜篃鏄鐗╃悊鐨勶紝鎴戠幇鍦ㄧ殑鐮旂┒涔熸槸鎬濈淮鏂瑰紡銆�
鎴戜篃鏇炬€濊€冭繃杩欎釜闂锛屾浘鐢ㄧ編鍥藉父鐢ㄧ殑涓€鍙ュ彛澶寸鈥滀竴鍥捐儨杩囧崈瑷€鈥濆拰涓浗甯歌鐨勪範璇€滅櫨闂讳笉濡備竴瑙佲€濓紝鏉ュ舰瀹瑰浘鍍忋€佸浘鐢讳互鍙婄洿瑙夋€濈淮鐨勮帿澶ч瓍鍔涖€傚悜鎮ㄥ涔犮€�
IP: 218.242.36.*   | 璧� 璧� +1 [9]鐜嬪彿   2011-9-5 14:59
浜虹被鍦ㄦ病鏈夋枃瀛楁椂锛屽彧鏈夊浘銆備俊鎭噺瓒呭ぇ銆傚娌冲浘 娲涗功 澶瀬 鍏崷銆�
IP: 222.131.56.*   | 璧� 璧� +1 [8]瀹嬫暒姹�   2011-6-2 16:28
鎬庝箞涓嶇粰寮犲浘鐪嬬湅鍛€€侊紵鎴戣繕浠ヤ负鏈夊紶婕備寒鐨勫浘鍛€€�
IP: 218.59.81.*   | 璧� 璧� +1 [7]濮滈亾濂�   2011-5-24 14:55
鍛靛懙 鎴戜滑灏卞湪鐮旂┒鍥捐氨鐨勪笢瑗�  浣嗘効甯︽潵濂界粨鏋�
IP: 202.113.12.*   | 璧� 璧� +1 [6]鏉ㄦ鐡�   2011-5-20 11:41
褰姞鍕掞細閫昏緫鏄瘉鏄庣殑宸ュ叿锛岀洿瑙夋槸鍙戞槑鐨勫伐鍏枫€傞€昏緫鍙互鍛婅瘔鎴戜滑璧拌繖鏉¤矾鎴栭偅鏉¤矾淇濊瘉涓嶉亣瑙佷换浣曢殰纰嶏紝浣嗘槸瀹冧笉鑳藉憡璇夋垜浠摢鏉¢亾璺兘寮曞鎴戜滑鍒拌揪鐩殑鍦般€備负姝ゅ繀椤讳粠杩滃鐬湜鐩爣锛屾暀瀵兼垜浠灜鏈涚殑鏈鐨勬槸鐩磋銆傛病鏈夌洿瑙夛紝鏁板瀹跺氨浼氬儚杩欐牱涓€涓綔瀹讹紝浠栧彧浼氭寜璇硶鍐欒瘲锛屼絾鏄嵈姣棤鎬濇兂銆�

甯屽皵浼壒锛氭暟瀛︾煡璇嗙粓绌惰渚濊禆浜庢煇绉嶇被鍨嬬殑鐩磋娲炲療鍔涖€�

http://bbs.sciencenet.cn/home.php?mod=space&uid=107667&do=blog&id=335009
IP: 123.114.101.*   | 璧� 璧� +1 [5]鍒橀挗   2011-1-31 20:37
浜氶噷澹寰风殑銆婂舰鑰屼笂瀛︺€嬪氨璇村埌锛氣€滄眰鐭ユ槸浜虹被鐨勬湰鎬э紝瀵规劅瑙夊埌鍠滅埍灏辨槸璇佹槑銆備汉浠敋鑷崇寮€瀹炵敤鑰屽枩鐖辨劅瑙夋湰浜嬶紝鍠滅埍瑙嗚灏ゅ叾鑳滀簬鍏朵粬銆傗€濇墍浠ヤ綘鐨勭爺绌跺ぇ姒備篃涓嶅畬鍏ㄦ槸瑙嗚鐨勩€備笉杩囦綘璇翠腑鍥戒功鍜屽鍥戒功鐨勫尯鍒湪浜庡墠鑰呭浘灏戯紝鍚庤€呭浘澶氾紝鎴戜笉璁や负瀹屽叏鏄繖鏍凤紝姹夊瓧鏈韩灏辨槸鈥渋mage鈥濄€�
IP: 114.78.179.*   | 璧� 璧� +1 [4]姝︿含娌�   2011-1-23 17:05
鎵€浠ユ槗缁忛瓍鍔涙棤绌峰晩锛屾湁鍥炬湁鏂囨湁鐞嗐€�
IP: 219.142.143.*   | 璧� 璧� +1 [3]姝﹀し灞�   2011-1-23 16:08
鎴戜簲骞村墠鍐欑殑灏忔枃绔狅紝绠€鍥炬縺鍙戠伒鎰燂細http://ganzhi.china.com.cn/xxsb/txt/2006-01/16/content_6094940.htm
鍥炲  锛� 姝﹀し灞辫€佸笀锛岀‘瀹炴垜鐨勯鐩氨鏄潵婧愪簬鎮ㄧ殑涔嬪墠鐨勪竴绡囧崥鏂囥€�

涓€鍥捐儨涓囪█锛岃繖鍙ヨ皻璇氨鏄粠鎮ㄧ殑鏂囩珷涓涔犵殑锛岄棶濂�
2011-1-24 00:241 妤硷紙鍥炲妤间富锛� 璧� 璧� +1 |
IP: 123.185.223.*   | 璧� 璧� +1 [2]姹偛鎵�   2011-1-23 12:41
閫昏緫鎬濈淮銆佸舰璞℃€濈淮銆佺伒鎰熸€濈董锛屽畠浠箣闂寸殑

鍏崇郴澶嶆潅鑰屽瘑涓嶅彲鍒嗭紝瀵逛簬涓€涓瘜浜庢兂璞″姏

鐨勫ぇ鑴戯紝涔熻姝f湡寰呯潃瀹為獙鐨勬敮鎾戯紝鍙嶄箣浜︾劧銆�

浠婂ぉ锛屽凡鏈変竴浜涘鑰呮瘮杈冨叧娉ㄤ簬褰㈣薄鎬濈淮锛屾濂芥槸涓轰簡

寮ヨˉ搴旇瘯鏁欒偛闀挎湡浠ユ潵鎵€閫犳垚鐨勪笉瓒筹紝閽卞妫富缂�

銆婂叧浜庢€濈淮绉戝銆嬩竴涔︼紝鎴戣鍚庡緢鍙楁暀鐩娿€�

瀛ょ珛鍦般€佽繃鍒嗗湴寮疯皟鏌愪竴绉嶆€濈淮鏂规硶锛屽線寰€鎬辫浜嗚京璇佹硶銆�

鏈煡鐒跺惁锛熶粎渚涘崥涓诲弬鑰冦€�
鍥炲  锛� 鎴戝湪鏂囦腑宸茬粡璇翠簡锛岀瀛﹀伐浣滆€呯殑鎬濊€冩柟寮忓拰鏅€氫汉涓€鏍枫€傚彧涓嶈繃鏈夌殑鏃跺€欎粬浠細灏濊瘯鐢ㄧ櫧鏃ユⅵ寮忕殑鏂瑰紡鍦ㄥご鑴戜腑鎻忕粯钃濆浘銆傛墍浠ユ垜鐨勬剰鎬濅笉鏄彧閲囩敤杩欑鏂瑰紡鎬濊€冦€�
瀵逛簬鎴戞潵璇达紝濡傛灉鏂囧瓧鎺ㄦ紨宸茬粡鐞嗚В鐨勮瘽鎴戝氨杩囧幓浜嗭紝鍙湁褰撴垜鎰熷埌鎴戞棤娉曠悊瑙g殑鏃跺€欙紝鎴戝氨浼氭斁涓嬩功锛岃繍鐢ㄦ兂璞$殑鏂瑰紡鏉ヨ瘯鍥惧幓鐩磋鐞嗚В銆�
鎴戞病鏈夊绔嬭繃鍒嗗己璋冩煇绉嶆€濈淮鏂瑰紡锛屾垜鍙槸鎯充粙缁嶄簡涓€绉嶏紝骞朵笖鎴戜笉鎯冲湪鏈枃璇勮鍏朵粬鏂瑰紡銆�
2011-1-23 13:301 妤硷紙鍥炲妤间富锛� 璧� 璧� +1 |
IP: 116.3.193.*   | 璧� 璧� +1 [1]鏉庢枃铔�   2011-1-23 08:30
闄嗙划濮戝鐨勬€濈淮鏂瑰紡锛屽凡鍙戠敓浜嗗ぇ澶х殑鍙樺寲銆傜湅鏉ョ背鍥界‘鑳藉煿鍏讳汉鍛�......
鍥炲  锛�   
鍏跺疄鎴戜竴鐩存槸杩欐牱鎬濊€冪殑鈥︹€�
浠ュ墠鎴戝彧瑙夊緱鎴戣繖鏍峰浘鍍忓寲鎬濊€冩槸鎴戠殑涓撳埄鍜岀璇€
鐜板湪鏈夊埆浜轰篃閲囩敤鍚屾牱鐨勬€濊€冩柟寮忥紝鎴戝緢寮€蹇冨晩銆�
鎴戣寰楁槸杩欐牱鐨勬€濊€冿紝鎵嶈鎴戝枩娆㈢墿鐞嗐€佸濂界墿鐞嗙殑銆�
2011-1-23 12:031 妤硷紙鍥炲妤间富锛� 璧� 璧� +1 |

1/1 | 鎬昏:10 | 棣栭〉 | 涓婁竴椤� | 涓嬩竴椤� | 鏈〉 | 璺宠浆

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-5 20:48

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部