|
富集分析简介
富集分析(Enrichment Analysis)是生物信息学研究中最常用的统计方法,主要应用于分析高通量实验(如基因芯片、RNA-Seq、蛋白质组学等)所获得的基因或蛋白质表达数据。其目的是发现在特定生物学条件下,哪些基因集或通路表现出显著的表达变化。通过这种方法,研究者可以初步分析基因可能参与的生物学过程或信号通路,为理解基因功能和疾病机制提供了重要的视角。
常见的富集分析基因集包括:GO、KEGG、Reactome、DO等。富集分析工具包括:DAVID、KOBAS、enrichR、metascape、panther、clusterprofiler等。
富集分析结果表格一般包括:term名,pvalue/padj,基因数,ratio/rich factor等列,常以气泡图,条形图展示。
树图
今天我们使用渐变树图(tree map)来展示富集结果。
树图(treemap)是一种用于展示层次结构数据的可视化技术。图中矩形大小表示term的基因数;颜色表示-log10(p);矩形的位置显示了数据的层次关系,例如粗线将图分成了左右两组。由于人们对颜色更加敏感,将富集term文字和颜色放在一起能够在一定程度上突出显著的结果。
1.打开作图URL
https://www.bioinformatics.com.cn/plot_basic_gradient_color_treemap_plot_246
2,示例数据
点击图片上方的示例数据,下载,并使用excel打开。
示例数据包括4列:
第1列:富集term
第2列:pvalue(-log10转换),用于颜色映射
第3列:基因数,跟矩形面积成正比
第4列(可选):分组。使用粗线作为边框,分组绘制
3,输入检查
Ctrl+A选中示例数据,Ctrl+C拷贝,Ctrl+V粘贴到输入框。
然后使用输入框下面的“输入检查”按钮先对输入数据进行检查。若检查不通过,请根据检查提示重复【修改-输入检查】步骤,直到检查通过(如下图所示),然后可以继续往下进行。
注:输入检查是新加功能,它会根据不同模块的输入要求,逐行逐列检查输入数据,并给出提示,确保数据符合模块要求。
4,参数选择
图片大小:图片宽度,图片高度
文字大小及颜色:矩形说明文字(富集条目名字)的字体大小,颜色;标题文字说明及颜色;图例标题和图例文字字体大小
渐变颜色: -log10(p)映射的低颜色和高颜色,越高p值越显著
边线的宽度及颜色:若包括第4列分组,则使用粗线作为边线分组展示
字体:Times New Roman和Arial字体
使用NPG(nature publishing group)配色方案进行配色。
5,提交出图
检查通过,并且参数选好后,点击“提交”按钮,约5s后,会在页面上呈现富集结果渐变树图预览。我们提供了pdf,svg两种矢量图,png,tiff两种标量图供大家下载使用。其中矢量图可以使用acrobat illustrator进行编辑、组图等。
绘图技巧:由于矩形面积大小是根据第3列计算的,因此若第3列基因数差别太大,则最小的矩形上可能不能显示文字,请使用acrobat illustrate编辑处理。
微生信助力高分文章,用户192000,谷歌引用3500
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 15:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社