ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

最靠谱的富集分析,超炫的展示方式,TCGA也是他的粉丝

已有 9212 次阅读 2017-12-18 15:57 |个人分类:Chip-seq、ATAC-seq实验分析|系统分类:科普集锦| ChIP-seq, ATAC-seq实验设计


本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小哈   来源: 嘉因

文末有福利!


小伙伴儿看题目就猜到了

没错,小哈也是那个拽的不要不要的Y叔的粉丝。


上次发帖说不懂生信,不装Linux,也能Run代码—Windows系统的Linux命令行工具Babun(此处有链接,点击查看),公开代码的国际项目之一就是著名的TCGA:

TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages [version 2; referees: 1 approved, 2 approved with reservations]

发表在那个遍地是牛的F1000Research上。


打开全文一看,不得了,一共20幅图,其中3幅是用Y叔的ChIPseeker画的,占15%,原来TCGA里藏了Y叔的粉丝!!!


TCGA用clusterProfiler转换了注释ID

TCGA用ChIPseeker画了这3幅图



审稿人圈儿里力推的最靠谱富集分析工具——clusterProfiler

居然也是Y叔写的!

拜服!


它能画出这种图

为啥说它做富集分析最靠谱呢?


1. 算法最靠谱。

看哪个通路是否富集,需要卡P值,P值的计算是关键。


clusterProfiler做富集分析用的是基于差异基因列表的超几何分布,同时支持GSEA这种全表达谱分析的算法。

详见Y叔对比帖:

Comparison of clusterProfiler and GSEA-P


用超几何分布算法计算P值需要基因注释信息、候选基因列表和背景基因列表。

通俗的讲,如果参与某一通路的基因在候选基因(差异表达基因)列表里占的比例很大,而在背景基因(整个基因组)列表中占的比例很小,那么这个通路在候选基因列表中就是富集的。这两个比例相差越多,P值越低。


clusterProfiler用基因组中有注释的基因做背景基因列表;

有的工具用基因组上所有的基因做背景,无注释的基因也算在内。

详见Y叔吐槽帖:

why clusterProfiler fails


如果追求低P值,觉得P值很低很低才好看,那就用后者;

如果追求真理,就用clusterProfiler;

审稿人追求哪种呢?


2. 注释最全,注释最新。

最全。clusterProfiler支持GO、KEGG、MSigDB、DAVID、DOSE, meshes,ReactomePA,还支持用户自己的注释数据。


怪不得TCGA用clusterProfiler来转换注释ID呢!


引用Y叔公众号里的一个例子:

GO注释

KEGG注释

最新。2012年开始,KEGG对数据库下载收费,大量的工具使用的都是2012年以前的数据。所幸KEGG的在线检索一直是免费的,clusterProfiler使用的是在线检索http得到的最新数据。

掐指一算,clusterProfiler得到的富集分析结果领先同行整整五年

让我们追忆一下五年来通路中的研究进展。。。

3. 展示方式最符合生物人的逻辑分析习惯。

小哈最喜欢下面这种展示方式,各种treatment,上调的、下调的基因富集在哪些通路上,富集程度如何,对比,一目了然。

而且他用了红配蓝,为什么高分文章喜欢红配蓝(此处有链接)



https://blog.sciencenet.cn/blog-3372875-1090328.html

上一篇:ChIP-seq和RNA-seq整合分析,BETA最擅长
下一篇:表观遗传是怎样遗传的?
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-10 03:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部