|||
本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome
作者:小哈 来源: 嘉因
文末有福利!
小伙伴儿看题目就猜到了
没错,小哈也是那个拽的不要不要的Y叔的粉丝。
上次发帖说不懂生信,不装Linux,也能Run代码—Windows系统的Linux命令行工具Babun(此处有链接,点击查看),公开代码的国际项目之一就是著名的TCGA:
TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages [version 2; referees: 1 approved, 2 approved with reservations]
发表在那个遍地是牛的F1000Research上。
打开全文一看,不得了,一共20幅图,其中3幅是用Y叔的ChIPseeker画的,占15%,原来TCGA里藏了Y叔的粉丝!!!
TCGA用clusterProfiler转换了注释ID
TCGA用ChIPseeker画了这3幅图
审稿人圈儿里力推的最靠谱富集分析工具——clusterProfiler
居然也是Y叔写的!
拜服!
它能画出这种图
为啥说它做富集分析最靠谱呢?
1. 算法最靠谱。
看哪个通路是否富集,需要卡P值,P值的计算是关键。
clusterProfiler做富集分析用的是基于差异基因列表的超几何分布,同时支持GSEA这种全表达谱分析的算法。
详见Y叔对比帖:
Comparison of clusterProfiler and GSEA-P
用超几何分布算法计算P值需要基因注释信息、候选基因列表和背景基因列表。
通俗的讲,如果参与某一通路的基因在候选基因(差异表达基因)列表里占的比例很大,而在背景基因(整个基因组)列表中占的比例很小,那么这个通路在候选基因列表中就是富集的。这两个比例相差越多,P值越低。
clusterProfiler用基因组中有注释的基因做背景基因列表;
有的工具用基因组上所有的基因做背景,无注释的基因也算在内。
详见Y叔吐槽帖:
如果追求低P值,觉得P值很低很低才好看,那就用后者;
如果追求真理,就用clusterProfiler;
审稿人追求哪种呢?
2. 注释最全,注释最新。
最全。clusterProfiler支持GO、KEGG、MSigDB、DAVID、DOSE, meshes,ReactomePA,还支持用户自己的注释数据。
怪不得TCGA用clusterProfiler来转换注释ID呢!
引用Y叔公众号里的一个例子:
GO注释
KEGG注释
最新。2012年开始,KEGG对数据库下载收费,大量的工具使用的都是2012年以前的数据。所幸KEGG的在线检索一直是免费的,clusterProfiler使用的是在线检索http得到的最新数据。
掐指一算,clusterProfiler得到的富集分析结果领先同行整整五年。
让我们追忆一下五年来通路中的研究进展。。。
3. 展示方式最符合生物人的逻辑分析习惯。
小哈最喜欢下面这种展示方式,各种treatment,上调的、下调的基因富集在哪些通路上,富集程度如何,对比,一目了然。
而且他用了红配蓝,为什么高分文章喜欢红配蓝(此处有链接)?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 09:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社