||
[TOC]
陕西省微生物研究所 常帆
主要研究方向为土壤微生态,同时负责服务器维护和相关流程搭建。
本文宏基因组公众号原创文章,作者常帆,
编辑、校稿、排版 刘永鑫
MicrobiomeAnalyst,综合微生物组学数据网页工具,2017年发表在Nucleic Acids Research上:MicrobiomeAnalyst - a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data. (doi: https://doi.org/10.1093/nar/gkx295 ) ,是一款集成数据分析展示工具,主要建立了从OTU table开始的下游分析全套流程。和其他工具最大的不同是提供简单直观的网页可视化操作界面,只需要鼠标点击上传相应的文件就能实现多元化的分析,并输出分析表格和数据展示图形,非常简单易操作。直至2018年10月21日,一直在更新(last updated 2018-10-15)。
图1. 网站的基本框架
网址:http://www.microbiomeanalyst.ca/
点击进入如下界面:
图2. 网站主页
网站的tutorials提供了每个模块详细的pdf介绍和教程,不同于其他网站,教程图文并茂,很好理解,推荐大家查看。
网站包括4大模块:
网站无需注册,点击就可使用,方便的同时,也不能保存刚刚的结果,需要手动将结果下载到本地。且一段时间无操作时再次点击会刷新到主页,而且网页会偶发异常刷新的情况,使之前的分析中断。所以上传数据开始分析时只能一次分析完,不然就要从头开始。
此处用笔者的6个样本(分2组,每组3个平行)进行测试:
首先点击左上角的MDPMarker Data Profiling (MDP):
图3. 文件上传页面(同时也可上传BIOM格式、MOTHUR输出的格式)
其中taxonomy处用哪个数据库注释的就选择哪个,RDP的话选择Not Specific/Other。因为网站只需要三个文件,所以上传真菌注释后选择Not Specific/Other一样能进行后续的真菌扩增子分析。
点击每一行后面的 ? 号,会给出上传数据的格式。此处要注意,OTU表格和实验设计文件的左上角第一格必须填写 #NAME
,注释信息左上角第一格必须填写 #TAXONOMY
。均大写,程序才能识别。
图4. OTU表格示例格式,注意左上角的#NAME
图5. 样本分组信息格式,注意左上角的#NAME
图6. OTU物种注释示例格式,注意左上角的#TAXONOMY
完成后submit,等待程序运行。结果如下:
Data Integrity Check
如果数据格式不符合要求,会在右上角报错,提示格式的可能原因,需修改数据再次上传。如果格式合格。显示如下:
首先是此次数据的基本信息:
Text Summary:聚类OTU多少,大于2 counts的OTU是多少;样本数,样本分组最大最小平均OTU counts数;
Graphic Summary:直观的展示了以上信息。右侧边提供图的PDF和SVG格式下载。后面所有的分析右侧都会提供相应的原始数据表格和不同格式图形的下载。
点击右下角Proceed
继续。
图7. Text Summary上传数据总览
图8. Graphic Summary样本数据量分布
Data Filtering
Feature Editor可以对低counts的数据进行过滤,一般认为低counts是测序错误或嵌合体。参数默认即可,有经验者可自行调整。
图9. OTU过滤参数
Sample Editor 可以简便的对分组进行重新调整。在这里可以简单的先不想查看的分组调整至右侧:选中分组名称(支持按住ctrl多选)点击→
可以将其暂时移出分析。在多次重复分析和剔除相关样本时非常容易。
图10. 样本选择
submit完成后右上角会弹出提示信息和过滤结果。
Data Normalization
此处可以选择是否抽平和抽平策略:
图12. 数据标准化方法选择页面
Data rarefying:选择是否抽平序列至最小样本量。
Data scaling:选择数据标准化方法,有不标准化、TSS、CSS、UQ可选,常用TSS或CSS。
Data transformation:选择数据是否进行数据变换(标准化)。
一般选默认即可。submit, proceed。
现在可以看到分析方法的全貌的树状图:中间分为6大部分,右侧每一个模块包含了一种具体的分析,直接从右侧每个模块点下去就可以看到此次实验分组的所有分析结果展示和统计了。
Choose an analysis method to proceed
6大部分每一部分有对应的主流分析和展示方法:
Visual exploration:可视化,主要是样本相对丰度展示。
点击第一个框:
弹出交互界面,只需要简单的点击勾选,就能完成所有操作。
图15. 物种组成堆叠柱状图
展示可以选择不同分类级别taxonomic level
;可以选择面积图或堆积柱状图;可以选择4种颜色配置方案color scheme
;可以选择展示哪些样本/分组/单独样本View type
;最后可以选择合并低counts的注释结果。
图16. 物种组成参数选择
修改完参数,再次点击Submit,可更新图片结果。
图形会直接展示在下方,右侧有选项可有导出丰度原始表格,导出已生成图片的pdf/svg格式。
之后的所有分析展示操作和这个模块一样:选择修改相应参数→submit更新→查看并保存结果。直观,方便。
交互式的饼图。可以选择展示不同样本的丰度情况,还可以点击左边饼图中的不同区域(例:门水平的Proteobacteria 34%),然后在右侧再展示其他分类级别的下(例:Proteobacteria门中的纲水平菌注释丰度情况)此区域的下级分类比例。经测试有一定的bug,可能无法进行切换或切换不同的分类水平后仍展示的是门水平的结果。
图18. 饼形图展示门,及具体门内纲的组成
Alpha多样性和显著性检验。可选择不同的level和显著性检验算法。
beta多样性分析,同样可以选择多种分类法PCoA/NMDS;距离算法bray-curtis/Unifrac(weighted和unweighted);和统计方法PERMANOVA/ANOSIM等,可以分组加标签或者分别展示。点击标签还可以呈现3D plot
核心微生物分析。可以看到组间主要的核心微生物。也有众多参数可选。
热图展示分析。可以按照之前的实验设计文件生成不同分组不同图例的热图。
聚类建树。同样提供了包括利用bray-curtis距离等在的聚类方法。
相关分析,包括了主流的pearson和spearman相关系数的算法。
模式分析。以前面相关分析为基础,以某一物种(比如自身实验关注的物种)为参考,分析与其他物种的关系,点击每个物种的details还能看到分组之间的显著性差异子图(两两比较)
单变量分析。可以选择不同的统计学方法来比较组间差异性,秩和检验就没有显著性,而ANOVA当p值定为0.01时仍有6个门具有显著性。
metagenomeSeq:一种算法,用在疾病领域丰度较低的情况,查看?
就能看到具体的信息;可以按照自身样本特性尝试分析。也是一种组间差异分析方法。
RNAseq分析:包括了EdgeR和DESeq2算法.用来检验组间的不同分类水平的差异。
LEfse分析,除了分析得到的显著性最大的OTU或注释,会得到前25位的显著性差异的统计表。默认LDA大于1为有显著性,可以自己调整相关参数。
随机森林分析,样本量较大(15个)的情况下使用,样本量少随机穷举的时候会显示不出差异。工具还可显示对模型的贡献程度(此处6个样本只是对功能进行了简单展示,具体的算法和生物学意义大家还是要明确,不能生搬硬套)。
功能预测:PICRUSt需要greengenes数据库注释的结果才可以分析;Tax4Fun需要SILVA数据库注释的结果才能使用。
重要的部分来了:
分析过程中,好多数据好多展示图片还要一个一个下载很麻烦?注意右下角的Downloads
图标:
点进去后,刚刚做的所有分析在这里均有记录,可以一个一个下载,或者download.zip下载全部数据。最神奇的是点击Generate Report
,直接可以生成完整分析报告!英文版!包括了刚才展示的主要结果、分析流程、统计方法,还有相关引文。是不是很多语句直接可以用在文章中了?分析报告在Analysis Report中直接查看。
SDP Shotgun Data Profiling (SDP)
功能基因分析和KEGG、COG代谢通路展示;Projection with Public Data (PPD)
通过SILVA或greengenes数据库注释的16S序列和全球不同的公共数据库(数据来自Qiita为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 04:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社