gncorner的个人博客分享 http://blog.sciencenet.cn/u/gncorner

博文

[转载]VSE—连接遗传位点和功能基因组的桥梁

已有 656 次阅读 2018-5-8 10:01 |个人分类:生信工具学习|系统分类:科研笔记| 实用工具 |文章来源:转载

GWAS时代人们最关心的问题是如何解释显著遗传位点的生物学功能。一般来讲,由GWAS找到的显著位点大部分落在不编码蛋白的基因组区域,然而我们对这些区域的了解目前还十分有限。随着ENCODE, FANTOM等数据库的逐渐完善,基因组中的非编码区段正在被各种新的组学技术揭开神秘面纱。具有某些特定功能的基因组非编码区段是否与GWAS易感位点在位置上具有显著的交互关系就显得尤为重要。

为了帮助研究以上科学问题,我给各位读者介绍一款不错的工具——Variant Set Enrichment (VSE). 首先,这是一个非常有名的R包,曾在《Nature Genetics》被多次引用。其核心算法是比较真实的遗传位点集合是否比随机匹配的模拟集合更加富集与某一特定的功能基因组区段上。

 

下面我就带领大家利用示例数据学习使用VSE

(1)       上传遗传位点数据

首先需要说明的是GWAS报道的显著位点以及与其有连锁不平衡的位点都有可能发挥生物学功能,因此我们需要将tag SNP以及其LD SNP一起纳入分析。VSE支持直接从rAggr网站(http://raggr.usc.edu/)上获取的具有连锁关系的SNP集合。一旦完成以上工作,数据导入就很简单了。示例代码如下:

library("VSE")

bca.ld <- loadLd(file.path(system.file("extdata", "ld_BCa_raggr.csv", package = "VSE")), type = "raggr")

bca.avs <- makeAVS(bca.ld)
avs.size <- avsSize(bca.avs)


(2)

这一步中,VSE要根据第一步得到的真实的位点信息去基因组中随机产生匹配的模拟位点。只用一行代码就可以轻松搞定。

bca.mrvs.200 <- makeMRVS(bca.avs, bgSize=200, mc.cores = 8)
###该步骤有两个参数,其中bgSzie表示随机模拟的次数,mc.cores表示用到的计算机节点数,Windows下只能是1


(3)

还是经典的bed文件格式即可。VSE自带了5个来自MCF7细胞系的组蛋白Chip-seq的数据,下载地址为( www.hansenhelab.org/VSE/sample_regions/)。读者也可以通过自带函数“loadSampleRegions”下载。

# Downloading sample regions
sampleSheet_path <- loadSampleRegions()
# Loading sample sheet
samples <- read.csv(sampleSheet_path, header = TRUE)


(4)

在进行统计分析之前,VSE可以给出一个近似热图的交互矩阵(如图1)。不禁让人窃喜:又能在文章中多放一个图了。

bca.intersect <- intersectMatrix(bca.avs, regions = samples, col = c("white",
    "grey10"), scale = "none", margins = c(5, 5), cexRow = 1, cexCol = 0.5,
    Rowv = NA, Colv = NA)


1:遗传位点与基因组区段的交互热图

1335.png


(5)       富集分析

VSE需要SNP集合,模拟集合以及基因组坐标三个输入来进行富集分析。一行代码即可实现:

bca.vse <- variantSetEnrichment(bca.avs, bca.mrvs.200, samples)


在展示P值之前,VSE还提供QQ plotnull distribution的正态性进行检验。只有符合正态分布的结果才可行。

par.original <- par(no.readonly = TRUE)
par(mfrow = c(ceiling(length(samples$Peaks)/3), 3), mai = c(1, 1, 0.5, 0.1))
VSEqq(bca.vse)
par(par.original)


如图2,富集分析的正态性进行检验结果

1336.png


最后,我们可以放心大胆地展示结果了。VSE提供图和表两种形式的展示结果的方式。

i)表

bca.vse.res <- VSESummary(bca.vse)
bca.vse.res


结果如下:

1337.png


ii)图

VSEplot(bca.vse, las = 2, pch = 20, cex = 1, cex.main = 0.6, padj = 0.05, main = "BCa AVS in MCF7 genomic features")


如图3,红色的点对应的区域既是遗传位点显著富集的区域(Bonferroni adjusted P-value < 0.01

3:最终富集结果图

1338.png

最后,给各位读者一些使用注意事项

(1)       VSEtag SNP的数量非常敏感,低于15会导致不准确的结果。

(2)       确保使用0.8作为LD的阈值。

(3)       用户需尽量选择可靠来源的功能基因组数据。

(4)       随机次数决定结果的显著程度。随机次数越大,分布的正态性越好,结果越可信。


转自生信草堂公众号,已授权

生信草堂

浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享最前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!

加微信bioinformatics88拉您进生信交流群

0.jpg

 



http://blog.sciencenet.cn/blog-3353749-1112891.html

上一篇:[转载]亲子鉴定知多少
下一篇:[转载]数据模拟软件ART

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-8-21 18:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部