|||
本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome
作者:小丫 来源:嘉因
《哪个蛋白质调控我感兴趣的基因?》一文讲了找上游转录因子的三种策略:
Plan A:基于大量ChIP-seq公共数据挖掘
Plan B:motif分析预测
Plan C:DNase/ATAC-seq结合motif分析
如果您感兴趣的细胞类型样本很难收集,ChIP-seq数据特别少,没法实现Plan A,还有Plan C来帮你。
其实《任意两组RNA-seq变身,国自然得AAA》一文介绍的找关键转录因子的思路就应用了Plan C:先找差异DHS,再搜DHS上的motif,推测出决定两种状态差异的关键调控因子,用关键调控因子的ChIP-seq数据证实它的确结合在差异位点。
今天带你实现Plan C:
原理
用DNase/ATAC-seq找DHS
找DHS区域的motif
用ChIP-seq数据验证
结果展示
速查表
1. 原理
调控蛋白结合位点附近很容易被DNase I或Tn5酶切到,前者叫做DNase I hypersensitive site (DHS),后者叫做transposase-accessible chromatin,本文为方便叙述,把他们统称为DHS。
用DNase/ATAC-seq能够找出有调控蛋白结合的区域。怎样才能知道是哪个调控蛋白呢?DHS上存在大量的调控元件,查查看这上面存在哪些转录因子的motif,就能推测出该区域结合的调控蛋白是谁。
怎样验证推测出来的转录因子的确结合在这个位点呢?找这些转录因子的ChIP-seq数据,看看有没有peak,或者自己做ChIP-seq/qPCR。
跟DNase-seq比起来,ATAC-seq用的细胞数更少,500-50,000个细胞就能做,实验更稳定,需要做的话找嘉因。近两年各物种都在努力积累ATAC-seq数据:
2. 用DNase/ATAC-seq找DHS
ENCODE已产生860个DNase-seq和175个ATAC-seq数据,包括人、小鼠和果蝇,几十个tissue,几乎涵盖了人们感兴趣的细胞类型。具体是哪些tissue,到本文第6部分查找。
DNase/ATAC-seq数据的下载方法跟这篇的第5步一样:《神技能!批量解决哪个转录因子调控你的基因》
3. 找DHS区域的motif
找到了DHS,说明这个位置有调控因子结合,具体是谁呢?要扫motif。到JASPAR 2018下载motif文件,http://jaspar.genereg.net/downloads/。人、小鼠选Vertebrates,植物的选Plants,果蝇、蜜蜂选Insects,线虫选Nematodes,真菌,海鞘,各取所需。
怎样扫motif呢?这篇介绍的方法总有一款适合你《点鼠标就能找启动子区的motif | meme-FIMO》。
4. 用ChIP-seq数据验证
在DHS找到了几个转录因子的motif,它们不一定真的能够结合。我们用这些转录因子的ChIP-seq数据做验证,筛选出真的在这里有结合信号的转录因子。方法见这篇《Plan A详细步骤1234 | 哪个转录因子调控我的基因?》
5. 结果展示
展示方法类似于这张图《他中了国自然,因为最后一周补了这张图》,比它多个motif。举个栗子:
做植物的亲们,小丫这次找了个拟南芥的Plant physiology做例子,亲切吧!
Liu, T.L., Newton, L., Liu, M.J., Shiu, S.H. and Farré, E.M., 2016. A G-box-like motif is necessary for transcriptional regulation by circadian pseudo-response regulators in Arabidopsis. Plant physiology, 170(1), pp.528-539.
6. 速查表
ENCODE产生的DNase/ATAC-seq数据,各tissue数据数量
人
81 | kidney |
74 | musculature of body |
70 | skin of body |
64 | lung |
60 | connective tissue |
59 | epithelium |
59 | limb |
50 | intestine |
44 | brain |
37 | large intestine |
34 | heart |
27 | vasculature |
26 | blood |
26 | embryo |
25 | penis |
24 | stomach |
21 | blood vessel |
21 | extraembryonic component |
18 | mammary gland |
18 | ureter |
14 | adrenal gland |
14 | pancreas |
14 | small intestine |
13 | liver |
13 | placenta |
12 | bone element |
11 | uterus |
10 | gonad |
10 | thymus |
9 | artery |
9 | eye |
9 | prostate gland |
8 | esophagus |
8 | lymph node |
7 | lymphoid tissue |
7 | spinal cord |
7 | thyroid gland |
6 | skeleton |
6 | testis |
5 | ovary |
4 | adipose tissue |
4 | breast |
4 | mouth |
4 | nerve |
3 | spleen |
2 | bronchus |
2 | lymphatic vessel |
2 | tongue |
2 | vagina |
2 | vein |
1 | bone marrow |
1 | nose |
1 | trachea |
1 | urinary bladder |
小鼠
40 | brain |
33 | embryo |
14 | liver |
11 | heart |
8 | epithelium |
8 | limb |
8 | lung |
7 | kidney |
6 | intestine |
5 | eye |
5 | spleen |
5 | stomach |
4 | blood |
4 | connective tissue |
3 | lymph node |
2 | adipose tissue |
2 | bone element |
2 | bone marrow |
2 | spinal cord |
2 | thymus |
1 | breast |
1 | extraembryonic component |
1 | gonad |
1 | large intestine |
1 | musculature of body |
果蝇
其他物种的ATAC-seq数据数量,看这篇《做过ChIP-seq或ATAC-seq的物种速查》
Organism Name | 中文名 | 数量 |
Homo sapiens | 人 | 6019 |
Mus musculus | 小鼠 | 2223 |
Drosophila melanogaster | 果蝇 | 122 |
Danio rerio | 斑马鱼 | 25 |
Saccharomyces cerevisiae | 酿酒酵母 | 23 |
Arabidopsis thaliana | 拟南芥 | 23 |
Strongylocentrotus purpuratus | 海胆 | 21 |
Oryza sativa | 水稻 | 20 |
Caenorhabditis elegans | 线虫 | 10 |
Capsaspora owczarzaki | 变形虫 | 5 |
Schizosaccharomyces pombe | 粟酒裂殖酵母 | 5 |
Streptococcus agalactiae | 无乳链球菌 | 4 |
Sorghum bicolor | 高粱 | 3 |
Solanum lycopersicum | 番茄 | 2 |
Medicago truncatula | 苜蓿 | 2 |
Oryza sativa Japonica Group | 水稻 | 2 |
Setaria italica | 小米 | 2 |
Zea mays | 玉米 | 2 |
Zea mays subsp. mays | 玉米 | 1 |
Branchiostoma lanceolatum | 文昌鱼 | 1 |
Oryzias latipes | 青鱂鱼 | 1 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社