ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

Plan A详细步骤1234 | 哪个转录因子调控我的基因?

已有 9031 次阅读 2018-2-8 11:03 |个人分类:转录调控|系统分类:科普集锦| 转录调控

 本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小丫  来源:嘉因

哪个蛋白质调控我感兴趣的基因?怎样筛选?基于分析或实验的可行方案V2.1》一文讲了找上游转录因子的策略:

  • Plan A:基于大量ChIP-seq公共数据挖掘

  • Plan B:motif分析预测

  • Plan C:ATAC-seq结合motif分析


motif系列答疑帖一步步帮你实现了Plan B

  1. 去哪找motif?

    史上最全物种转录因子、motif数据库footprintDB

  2. 这段DNA上有我关心的motif吗?

    点鼠标就能找启动子区的motif | meme-FIMO

  3. motif scan结果怎样看?

    互补链上的motif有意义吗?

  4. motif结果怎样展示到文章里?

    找到了motif,怎样展示结果?


ChIP系列带你实现Plan A,下个系列解决Plan C。

  1. 原理

  2. 在线快速查看结果

  3. 局限性

  4. 速查表

  5. 从哪里下载数据

  6. 怎样批量处理数据

  7. 怎样展示结果


本文讲1234,下一篇讲567。




1. 原理

原理很简单,下图一目了然。做一个ChIP-seq实验能找到一个转录因子调控的靶基因,成百上千个ChIP-seq放在一起,就能找到任意一个基因被哪些转录因子调控


2. 在线快速查看结果的两种方法

方法一

用Cistrome data browser: a data portal for ChIP-Seq and chromatin accessibility data in human and mouse. Nucleic Acids Res 2016; Oct 26.


感谢Dr. Mei 在本文撰写中提供的帮助。推荐另一个非常好用的工具,出自同一作者:去TCGA看表型,来CistromeCancer挖机制 | RNA-seq和ChIP-seq的完美结合


Cistrome Data Browser,http://cistrome.org/db,收集了GEO和ENCODE里人和小鼠的ChIP-seq和DNase/ATAC-seq数据,共38680套,每天还在跑新数据、上传。


如果您心中已经有了几个目标转录因子,想找ChIP-seq数据check一下;或者想挨个查看您关心的细胞类型里的转录因子,那就在线查看每个转录因子在你的基因附近的ChIP-seq信号。


具体查看方法:

例如搜索kidney,选择Homo sapions,列出人的各种factor的数据,点击Results条目查看详情。


点击右侧的WashU Browser或UCSC Browser就能查看结合信号


这是UCSC Browser的效果,黑色的瘦瘦高高的peak就代表这个转录因子在这个位置有结合信号。


如果想同时查看多个转录因子,就在条目左边的小方块里打个勾。点击页面最下方的WashU Browser或UCSC Browser,前者更快。


WashU Browser的展示效果更美,左侧是sample信息,每行信号下面对应显示peak的位置,不用肉眼再去判断。



方法二

ENCODE,https://www.encodeproject.org,产生了大量高质量的ChIP-seq数据。


新来的小伙伴儿可能要先看下面的视频了解ENCODE


4个物种ChIP-seq数量:




其中转录因子数量:


选择ChIP-seq、transcription factor,Homo sapiens,在右下角的results栏里,点击感兴趣的细胞系右侧的数字。


点击Visualize,选择hg38。


最多能添加100套数据到UCSC genome browser,查看某段DNA上的peak分布。鼠标移到感兴趣的track,出现sample信息。



3. 局限性

方法一的局限性:

  1. 用肉眼挨个看哪个track有peak,数据多了就要疯掉了。可以通过下篇介绍的456来解决。

  2. 只能看人和小鼠的数据;想看果蝇和线虫就用方法二;想看其他物种或ENCODE以外的果蝇、线虫数据,用下篇介绍的方法来解决。

  3. Plan A本身的局限性:只能判断做过ChIP-seq的转录因子,如果关心的数据类型的ChIP-seq数据特别少,就很难遇到刚好调控你的基因的转录因子。如果没有阳性结果,就用本文开头提到的Plan B或Plan C解决。


方法二的局限性:

除了方法一的i和iii以外,最大的缺点就是不全,它只收录ENCODE相关项目的数据,其他ChIP-seq数据在这里看不到。它貌似是被拿来衬托方法一的。



4. 速查表:

您对哪种疾病感兴趣?哪个tissue?已经做了多少个ChIP-seq?

分别查看两个数据库里人tissue转录因子ChIP-seq数量,做个预判。


Cistrome(下面的数字仅作参考,更新到2016年1月,比目前总数少1万多):

956Blood
847MammaryGland
744None
738Colon
473Prostate
409BoneMarrow
373Embryo
317Cervix
253Lung
189EmbryonicKidney
161Liver
87Brain
86UmbilicalVein
58Bone
56Skin
45Adipose
35Foreskin
31Endometrium
27Cordblood
19Kidney
19FetalLiver
18LymphNode
15Breast
12Cranial
11Pancreas
10ConnectiveTissue
8Tonsil
8SkeletalMuscle
8EmbryonicLung
7Muscle
6Stomach
6Heart
6Coronaryarterysmoothmuscle
6AdrenalGland
5Esophagus
4Ovary
4ForearmSkinBiopsy
3Headandneck
3Bronchia
3Artery
2Uterus
2UrinaryBladder
2Thyroid
2SpinalCord
2PulmonaryArtery
2PancreaticIslet
2Gingiva
2FetalSkin
2FetalLung
2Eye
2Cerebellum
1Testis
1Spleen
1Pancreaticductal
1Epithelium


ENCODE

792blood
308liver
236kidney
236lung
169mammary gland
106uterus
87embryo
62large intestine
60brain
56epithelium
41intestine
39skin of body
36connective tissue
33musculature of body
28stomach
23limb
22prostate gland
22vasculature
21blood vessel
20esophagus
20lymph node
17pancreas
14adipose tissue
14vein
12breast
12spleen
9gonad
8vagina
7bone element
7heart
7lymphoid tissue
7nerve
7testis
6adrenal gland
6penis
5ovary
5thyroid gland
3artery
3bodily fluid
2bone marrow
2eye
1bronchus
1extraembryonic component
1mouth
1placenta
1spinal cord


其他速查表:






https://blog.sciencenet.cn/blog-3372875-1098971.html

上一篇:TCGA,她已经用了七年 | 资深用户深度点评
下一篇:他中了国自然,因为最后一周补了这张图
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-14 08:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部