ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

变异会影响转录?SNP影响转录因子结合?RegulomeDB

已有 8882 次阅读 2018-1-4 12:07 |个人分类:转录调控|系统分类:科普集锦| 转录调控

 本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小丫  来源:嘉因


前面三期铺垫了DNA测序的三种方法的优缺点、高性价比的设计实验、质量问题的原因,以及各种找变异位点的工具的优缺点,讲的都是经验和comment。如果想跟着案例一步一步模仿,请移步生信技能树





终于可以切入我最想解决的问题了:


变异会影响基因转录调控吗?




问题的提出



问题1:GWAS获得的很多变异位点位于non-coding区域,它跟表型的关系是怎样的?


或者,我想从转录调控机制入手,我关心的是SNP对基因转录调控的影响,该怎样分析呢?



问题2:GWAS发现的变异位点本身可能并不能导致疾病,它附近可能存在一个high linkage disequilibrium(LD)位点,那才是致病原因。


或者:我查的SNP没影响转录调控,这样就结束了吗?还可以继续努力,有可能它旁边的SNP才是Mr. Right,怎样找到这个Mr. Right呢?


本期回答问题1,下期回答问题2。




方  法


Stanford University的Synder Lab的Collin Melton在2016年ENCODE会议上介绍了这个问题的研究策略:用ENCODE数据给变异做注释。


Variant Annotation using ENCODE Data: An Introduction to RegulomeDB and HaploReg


回复regulomeDB获得ppt。



推荐了两个变异注释工具:


RegulomeDB, created by the Synder and Cherry Labs in 2012

http://www.regulomedb.org/

https://github.com/aboyle/RegulomeDB-Tools


HaploReg
,出自Kellis lab。还记得Kellis吗?MIT理工男Manolis Kellis讲基因、疾病与治疗 |  TEDx视频

http://www.broadinstitute.org/mammals/haploreg/haploreg.php


本期视频只介绍了RegulomeDB的用法,下期回答问题2时详细介绍HaploReg的用法。



告诉它你感兴趣的位点,它就告诉你这个位点的变异有没有影响转录因子结合,有没有影响基因表达。




原  理


从因果两个层面找证据,分析您的变异位点是否会影响基因转录。


转录调控是原因:如果基因上游调控区发生变异就可能影响基因的转录激活。例如motif的变异导致TF无法结合,那么原本由该TF激活转录的靶基因无法正常转录,可能会导致肿瘤或遗传疾病发生。


基因表达水平是结果:从eQTL数据能看到SNP造成的结果,即基因的变异导致附近基因转录水平的变化。



为了最全面的从因果两方面注释您的变异位点,RegulomeDB收集了各个层面的调控数据,编译自http://www.regulomedb.org/help:


  1. 转录因子的ChIP-seq,以ENCODE项目产生的为主、还包括一些非ENCODE项目产生的、以及ChIP-exo(最精准的ChIP-seq)数据;

  2. 组蛋白修饰的ChIP-seq,只用了Roadmap的数据,Roadmap Epigenomics Mapping Consortium(REMC);

  3. 开放染色质,用了ENCODE的DNase-seq;

  4. 用motif预测转录因子结合位点,包括TRANSFAC、Jaspar、UniPROBE和Jolma 2013年Cell paper里的PWMs;

  5. 差异甲基化区域,用Synder 2014年Nat Biotechnology paper里的;

    1-5是因,6是果

  6. eQTLs、dsQTL,包括如下组织:Cerebellum、Cortex、Fibroblasts、Frontal-Cortex、Liver、Lymphoblastoid、Monocytes、Pons、T-cells、Temporal-Cortex



怎样评价


根据上述证据设置score。TF结合是因,表达量变化是果。只有观察到SNP位点影响了基因转录水平的表达量变化,才给它更好的score,1开头。如果没有eQTL证据支持,就是以2开头。



举个例子


界面简单得不能再简单


识别多种输入格式:dbSNP ID、bed、VCF、GFF3或chr#:min_coord..max_coord。


例如,E2F1上下游区域,chr20:33,627,434-33,734,653,点击Submit。找到495个SNP,按照Score排序,rs1033799的score最高,点击1d

位点、结论和证据都反映在这张图上

后面是详细信息:

  • K562细胞系的CEBPB、RCOR1、TAL1 ChIP-seq在这个位置有peak,说明CEBPB、RCOR1、TAL1结合在这个SNP附近;

  • 出现了Zbtb12的motif,推测Zbtb12有可能结合;

  • 有一个eQTL,在单核细胞Monocytes里影响了ITGB4BP的表达量;

  • 在K562里看到DNase信号,说明这个位置是开放的,可能有调控蛋白结合;

  • 组蛋白修饰说明在Blood & T cell、B cell等细胞里是转录活跃的,而在ESC和iPSC里活跃程度低。


总结,SNP位点rs1033799很可能影响转录因子的结合,并影响靶基因的表达水平。





https://blog.sciencenet.cn/blog-3372875-1093056.html

上一篇:5分钟视频,明白DNA变异位点是怎么找出来的
下一篇:non-coding区的SNP影响了转录?HaploReg视频
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 09:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部