|||
本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome
作者:小丫 来源:嘉因
non-coding区域的SNP有什么生物学意义?
问题1:全基因组测序或GWAS获得的很多变异位点位于non-coding区域,它跟表型的关系是怎样的?
或者,我想从转录调控机制入手,我关心的是SNP对基因转录调控的影响,该怎样分析呢?
问题2:GWAS发现的变异位点本身可能并不能导致疾病,它附近可能存在一个high LD位点,那才是致病原因。
或者:我查的SNP没影响转录调控,这样就结束了吗?还可以继续努力,有可能它旁边的SNP才是Mr. Right,怎样找到这个Mr. Right呢?
上期回答了第1个问题:
变异会影响转录?SNP影响转录因子结合?RegulomeDB
本期介绍HaploReg,既能回答问题1,又能回答问题2。
上期送出的2016年ENCODE会议视频对RegulomeDB和HaploReg的介绍太简略,翻出2015年的ENCODE会议视频,小美女非常详细的讲了用RegulomeDB和HaploReg注释变异的操作步骤,最后还留了三道练习题。
由University of Massachusetts Medical School翁志萍Lab的Jill E. Moore讲解
扩展阅读:ENCODE介绍视频 | 由ENCODE成员翁志萍教授亲自讲解
前8分钟演示RegulomeDB,8分14秒开始演示HaploReg的用法
HaploReg地址:
http://www.broadinstitute.org/mammals/haploreg/haploreg.php
HaploReg既能回答问题1,也能回答问题2。
先来回答问题1,跟RegulomeDB对比着看。
例如rs2637839,在RegulomeDB里score为5,很少证据支持它影响转录因子结合。
只找到IK-2的motif和开放染色质信号,ChromHMM认为这里是转录静止状态。
再去HaploReg里查这个SNP rs2637839,对比两个工具的结果。
dbSNP ID标红色的是它自己,有promoter和enhancer的组蛋白修饰、开放染色质信号、Ik-2的motif、有eQTL,位于FXYD3的intron。
跟RegulomeDB比起来,有更多的证据支持rs2637839影响转录。尤其是HaploReg有eQTL证据,而RegulomeDB没找到eQTL证据。
对比两个工具的数据来源,发现HaploReg的eQTL除了收录GTEx analysis V6以外,还有EBI的GEUVADIS analysis和其他10个研究的结果。PWM来源也比RegulomeDB多。多了conserved regions,少了差异甲基化区域。
具体的注释异同看这两个页面:http://archive.broadinstitute.org/mammals/haploreg/documentation_v4.1.html
http://www.regulomedb.org/help
扩展阅读:
点击rs2637839查看详情。把dbSNP中的重要信息整理成了表格,RegulomeDB里的图和列表,在HaploReg里都整理成了汇总表。
上面回答了问题1。
下面回答问题2.
回到这个图,搜索rs2637839的同时找到好多high LD的SNP,认为它们跟rs2637839是连锁的。
为什么要找high LD的SNP位点呢?
GWAS里看到跟表型高度相关的SNP位点不一定就是那个因,有可能high LD位点才是因。落实到这个例子,在Protein bound列,发现high LD位点rs4835,rs1672975,rs3833291有多个蛋白结合证据,推测可能是这些SNP影响AP2ALPHA、AP2GAMMA、INI1、ELF1、ZNF263等转录因子的结合,进而影响下游基因的转录。
默认r2>0.8,在Option里可以设置,注意第二行人种的选择:
扩展阅读:
连锁不平衡的计算——上海元莘生物
连锁不平衡文章常用图——源宜基因
最后还有三道练习题:
回复HaploReg,查看ppt和三道练习题的答案。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 09:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社