lyao222lll的个人博客分享 http://blog.sciencenet.cn/u/lyao222lll

博文

基于16S的细菌群落功能预测工具PICRUSt2(PICRUSt的升级版)

已有 1094 次阅读 2020-2-14 19:18 |个人分类:Software/Pipeline/Script|系统分类:科研笔记| _生信工具, _菌群功能预测

基于16S的细菌群落功能预测工具PICRUSt2

 

前文已经展示了使用PICRUSt基于16S丰度组成预测群落功能的方法。尽管PICRUSt在刚开始推出时非常受欢迎,但由于它是2013年开发的工具,已经是很多年前的事情了,并且其所依据的GreenGene 16S物种注释数据库也在2013年后就没再更新,信息较老,如今使用起来非常鸡肋。

好消息是在2018年推出了全新版本的PICRUSt,即PICRUSt2(为了和早期版本区分,下文将早期的PICRUSt统称为PICRUSt1)。与PICRUSt1相比,PICRUSt2作了各方面的优化及改进,精度也大幅提升,在目前宏基因组测序价格仍未白菜价的情况下(尽管相比以前已经很低了,但不可否认大部分人还是测不起啊……),PICRUSt2是一个好的选择。

1)不再以GreenGene为注释的OTU表作为输入,允许直接提供任意的原始16S代表序列,内置了16S的物种注释方法。因此相比先前,OTU表的物种注释过程更加灵活。

2)用于预测的参考基因组数据库相比先前也已扩大了10倍以上,使功能预测信息更加全面。

3)从castorR包中添加了隐藏状态预测算法。

4)允许输出MetaCyc本体预测,将可与普通宏基因组学的结果比较。

5)对途径丰度的推断依赖于MinPath,这使预测过程更加严格。

6)目前可以在GitHubhttps://github.com/picrust/picrust2/releases)上看到PICRUSt2仍然处于一直在更新的状态,最近的版本是PICRUSt2 v2.3.0-b21 Dec 2019)。

1.png  

PICRUSt2方法包括系统发育定位、隐藏状态预测和样本基因丰度和途径推断。以ASV序列和丰度为输入,输出分层的基因家族和途径丰度。PICRUSt2实现中包含默认工作流的所有必需参考树和特征数据库(Douglas et al, 2019)。

 

本篇继续简介PICRUSt2的使用。如果想了解关于PICRUSt1的内容,可参考前文

PICRUSt2的详细文档及官方教程:https://github.com/picrust/picrust2/wiki

下文所有示例数据、运行结果文件及命令行等,可在百度盘获取(提取码:wnyt):

https://pan.baidu.com/s/1ZROgkhkE2K0dowy4HGtinw

 


conda安装PICRUSt2环境


类似PICRUSt1PICRUSt2同样可以通过bioconda安装(仅支持LinuxMac)。

#https://github.com/picrust/picrust2/wiki/Installation
#使用 bioconda 安装 PICRUSt2 环境
conda create -n picrust2 -c bioconda -c conda-forge picrust2=2.2.0_b
 
#激活环境
source activate picrust2
 
#退出环境
source deactivate picrust2

回想到PICRUSt1conda安装后,还要再单独手动下载一些配置库文件….. PICRUSt2就省事的多,依赖的各环境将自动配齐,直接使用就可以了。

 


PICRUSt2预测16S群落数据


接下来根据16S物种组成数据预测群落功能。

 

1、准备数据


PICRUSt2无需再以GreenGene注释的OTU表为输入,可以直接读取OTU的代表序列自动完成物种注释,并进一步根据物种丰度组成预测群落功能。

因此,通常来讲提供以下两个文件就可以了。

示例文件可见网盘附件“data”。示例数据集共有8016S测序样本,均来自土壤。因试验需求,在土壤中添加了某化学物质,目的为探究该化学物质对土壤微生物群落的影响。这80个样本中,40个为不添加化学物质的对照组(control组),40个为添加化学物质的处理组(treat组)。

文件“data/otu_table.txt”为OTU丰度表格,仅包含丰度组成信息即可,无需添加注释列。

2.png

文件“data/otu.fasta”中包含了OTU丰度表中各OTU的代表序列。

3.png

 

2PICRUSt2预测群落功能


将上述两个文件作为PICRUSt2的输入。

相比PICRUSt1PICRUSt2的使用可以一键式完成,包括16S物种注释、拷贝数均一化、基因家族的隐藏状态预测、基因组功能推断、功能途径丰度预测等。

#比 picrust1 使用起来省事多了,直接输入原始 OTU 代表序列和丰度表即可
#一个整合多步的快捷命令
#picrust2_pipeline.py -h
picrust2_pipeline.py -s otu.fasta -i otu_table.txt -o picrust2_result -p 4

这是一个打包好多命令组合,傻瓜式运行后即可得到多步结果。根据文档建议,至少需要16GB内存支持(尽管大部分功能实现无需占用这么多内存,所以实际上小于16GB内存也可以使用,但可能要分步实现)。

如想分开运行各步骤,加深对PICRUSt2具体执行过程的理解,可参考:

https://github.com/picrust/picrust2/wiki/Workflow

 

3、主要结果部分的说明


上述示例的默认输出结果可见网盘附件“picrust2_result”。

4.png

out.tre,所有OTU代表序列构建的系统发育树文件。

 

KO_metagenome_out/,该结果路径中记录了细菌群落KOKEGG Orthology)功能的丰度预测结果。

KO_metagenome_out/seqtab_norm.tsv.gz,对于很多细菌而言,一个个体可能包含多条16S(多拷贝16S),因此在原始OTU 16S rRNA丰度表的基础上,根据物种所含16S rRNA拷贝数对物种丰度进行标准化,得到校正16S rRNA拷贝数后的OTU丰度表。

5.png

KO_metagenome_out/pred_metagenome_unstrat.tsv.gz,该文件中即为预测得到的细菌群落功能丰度表,记录了各样本中所包含KO功能的丰度,丰度计算由上述校正16S rRNA拷贝数标准化后的OTU丰度表推断得到。功能以KO ID为名称,代表了特定的功能基因。

6.png

KO_metagenome_out/weighted_nsti.tsv.gz,各样本预测功能的加权NSTI值,由OTUNSTI值通过标准化后的丰度加权所得。

7.png

 

EC_metagenome_out/,该结果路径中记录了细菌群落酶(EC)功能的丰度预测结果。文件结构同上述KO_metagenome_out/,不再展示。

 

pathways_out/path_abun_unstrat.tsv.gz,上述为预测得到的以KO ID为名称的KO功能,实则代表了特定的功能基因,将这些功能基因映射到具体的KEGG代谢途径(KEGG pathway)中,并统计各途径在各样本中的丰度,获得该表。

8.png

 

KO_predicted.tsv.gzEC_predicted.tsv.gz,两个矩阵文件中记录了OTU对预测功能丰度的贡献,即可以理解为每个OTU所代表的物种个体基因组中,分别有多少数量的基因与对应的KO功能或酶功能有关。如果期望关注哪些OTU是否对群落功能是重要的,这些表格(该表仅代表了单个物种个体基因组的特征,可能还需结合OTU的丰度信息)可以提供参考。

9.png

 

marker_predicted_and_nsti.tsv.gz,记录了OTU代表物种基因组中,16SrRNA拷贝数以及功能预测的NSTI值信息。

10.png

 

Intermediate/,一些中间文件。

 

4、统计分析


获得群落功能丰度表后,就可以按照OTU丰度表的统计分析方法,去执行类似的分析了。这点可以找一些文献作参考,看别人是怎样做的。例如,首先计算特定功能丰度在组间的显著性,获得组间差异显著的功能,然后再从数据库官网上(例如KEGG数据库:https://www.kegg.jp)查询该功能的细节,解释生物学现象等。

 


参考文献


Douglas G M, Maffei V J, Zaneveld J, et al. PICRUSt2: An improved and extensible approach for metagenome inference. bioRxiv, 2019.

 

更多精彩,可关注个人公众号“生信小白鱼”,感谢大家支持。



http://blog.sciencenet.cn/blog-3406804-1218363.html

上一篇:支持向量机分类及在R中实现
下一篇:基于16S的细菌群落功能预测工具Tax4Fun2(Tax4Fun的升级版)

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-4-3 18:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部