||
[TOC]
2010年发表于Nature Methods的QIIME[发音同chime]是微生物组领域最广泛使用的扩增子数据分析流程,截止2019年7月25日,Google Scholar统计引用15,831次。随着近年来测序通量的提高和超大规模研究的开展,其软件架构己法满足未来微生物组大数据和可重复分析的要求。
为满足大数据和可重复分析的需求,由QIIME项目第一作者Gregory Caporaso教授领衔于2016年开始编写全新的微生物组分析平台——QIIME 2,于2018年正式接档QIIME。文章2018年10月24日发布于Peer J预印本服务器,2019年7月24日正式发表于Nature Biotechnology杂志,今天一起来了解一下关于QIIME2的最新消息吧!
Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2
Nature Biotechnology
Published online: 24 July 2019
DOI: https://doi.org/10.1038/s41587-019-0209-9
第一作者:Evan Bolyen1,80, Jai Ram Rideout1,80, Matthew R. Dillon1,80, Nicholas A. Bokulich1,80
通讯作者:J. Gregory Caporaso1,20* greg.caporaso@nau.edu
注:本文共有112位作者,79家单位标注,除第一作者(含共同)、通讯作者和Rob Knight除外,其他作者按姓氏字母顺序排列。
共有79家单位标注,包括美国(59)、加拿大(7)、中国(3)、澳大利亚(2)、丹麦(2)、德国(2)、韩国(1)、荷兰(1)、意大利(1)和英国(1),共10个国家参与。
中文标题:使用QIIME 2实现可重复、交互和可扩展的微生物组数据分析
分享标题:全新微生物组分析平台QIIME 2在Nature Biotechnology正式发表
我们推出了开源的微生物组数据科学平台——QIIME 2,适用于微生物生态领域研究人员的科学家、工程师,以及临床医生和决策者。QIIME 2的新特征将会推动微生物研究进入新的阶段。主要包括时间和空间分析和可视化工具,支持代谢组和宏基因组数据分析,自动化数据来源追溯确保数据的可重复,微生物组数据科学透明。
编者评语:引用1.5万多次的微生物组分析流程QIIME发布已9年,无法满足当今大数据和可重复分析的要求。2016年发起的全新项目QIIME 2,基于Python3编写,集合了10个国家79家单位的112位作者共同参与,于2019年7月24日在生物技术顶级期刊Nature Biotechnology正式发表。该项目发表不是项目结束,而是刚刚开始,将会以每季度的速度进行大版本更新优化和增加新功能,而且也希望更多的国际同行加入,打造微生物组领域最强大的分析平台和知识库。该项目在发表前已经非正式引用近千次,现在大家可以优雅的引用它了。2018.11版本十万字中文教程见:https://mp.weixin.qq.com/s/IZLjdkRq2-36DJ9X792_MA 。本月底将发布2019.7版本,配套中文文档和视频教程也将在宏基因组公众号陆续更新。
在过去的二十年里,测序技术和生物信息工具的发展改变了人们对微生物世界的认识。如增长了对微生物多样性的理解;微生物群和微生物组在疾病和药物治疗中的影响;微生物如何影响健康;以及微生物组技术在药学、法医学、环境和农业中的初步尝试。大多数的工作采用标记基因调查(marker-gene survey,如细菌/古菌的16S rRNA基因,真菌的转录间隔区ITS和真核的18S rRNA基因),可以获得物种的特异性和进化信息。这一领域正在向整合其它数据过渡,如代谢组、宏蛋白组和宏转录组。
QIIME 1微生物组生物信息分析平台支持了许多微生物组学研究(截止此文发表时,Google统计引用15831次),获得了广泛的用户和社区人员参与开发。通过在线论坛与QIIME 1用户的交流,研究会,以及直接的合作,软件在学术、政府以及工业领域中有多种应用。这里,我们推出全新工程化设计和重写的系统——QIIME 2,设计为方便可重复和分子分析微生物数据的下一次微生物组科学分析平台。
QIIME2开发基于插件的架构(附图1),允许第三方开发新功能(https://library.qiime2.org)。QIIME 2插件提供了支持不同测序平台的新一代的序列质量控制工具DADA2和Deblur,物种分类、系统发育插值等工具,比QIIME 1和其它工具可以定量更优的结果。插件也支持一些新的分析方法,如成对样本比较、时间序列分析(研究处理对微生物组的影响至关重要),和机器学习。训练的机器学习模型可以保存并应用于新数据,以鉴定重要的微生物组特征。最近新发表的插件q2-cscs, q2-metabolomics, q2-shogun, q2-metaphlan2和q2-picrust2为分析宏代谢组和宏基因组提供了初步的支持。我们也正努力 开发生信工具处理宏转录组和宏蛋白组数据,将很快与大家见面。此外,许多现存的下游分析工具,如q2-sample-classifier可以单独或与其它软件配合处理特征表。因此,QIIME 2的潜力不仅可用于处理标记基因分析,也是一个多维度、强大的数据科学平台,可以快速发展为适应多种微生物组数据特征的平台。
Figure S1. Schematic diagram of the QIIME 2 system.
接口(interfaces)定义用户与系统交互的方式; 插件(plugins)定义所有特定模块的功能; 框架(framework)调解插件和接口之间的通信,并执行核心功能,如起源跟踪。 箭头表示依赖关系。 接口仅与qiime2.sdk
子模块交互,而插件仅与qiime2.plugin
子模块交互。 这种设计使得第三方插件和界面开发人员可以轻松扩展该系统。
Interfaces define how users interact with the system; plugins define all domain-specific functionality; and the framework mediates communication between plugins and interfaces, and performs core functionality such as provenance tracking. Arrows indicate dependencies. Interfaces interact only with the
qiime2.sdk
submodule, while plugins interact only with theqiime2.plugin
submodule. This design has led to a system that is readily extended by third-party plugin and interface developers.
QIIME 2提供多种新交互可视化工具,加速数据的探索和结果的报告可读性。图1中展示了4个交互可视化结果的静态版本,可以使用QIIME 2查看器在线查看,无需安装任何软件,方便结果共享。可视化结果呈现在图1中,交互文件在补充文件1中方便读者自己体验交互式操作和结果解读。这些分析的对应代码见补充方法部分。
Fig. 1 | QIIME 2 provides many interactive visualization tools.
QIIME2提供了众多的交互式可视化工具。本图展示了4个示例,这些屏幕截图的交互版本详见 文章补充文件1压缩包中的文件,或访问 https://github.com/qiime2/paper1 下载。这些图绘制的详细代码、描述详见补充方法部分。
The products of four worked examples are presented here, and interactive versions of these screen captures are available in Supplementary File 1 and at https://github.com/qiime2/paper1. Detailed descriptions and methods, including the commands used to generate each of these visualizations, are provided in Supplementary Methods.
a. 基于37,680个样本的无权重UniFrac PCoA图,表明QIIME 2的大样本量处理能力(scalable)。按地球微生物组的本体论分类着色。
a, Unweighted UniFrac principal coordinate analysis plot containing 37,680 samples, illustrating the scalability of QIIME 2. Colors indicate sample type, as described by the Earth Microbiome Project ontology (EMPO).
b. 交互式柱状图展示黄石公园热泉不同温度梯度下物种组成。更多可交互式的可控条件,极大的减少了分析工作量。
b, Interactive taxonomic composition bar plot illustrating the phylum-level composition of microbial-mat samples collected along a temperature gradient in Yellowstone National Park Hot Spring outflow channels (Steep Cone Geyser). The many interactive controls available in this plot vastly decrease the burden of exploratory analysis over QIIME 1.
c. 波动图(volatility plot)展示母乳和奶粉喂养婴儿双歧杆菌丰度随时间的变化。此可视化方法可用于交互挖掘时空特异的特征,按特征的重要性排序,并展示对应的平均相对丰度,轻松挖掘关注的候选菌。
c, Feature volatility plot (https://msystems.asm.org/content/3/6/e00219-18) illustrating the change in Bifidobacterium abundance over time in breast-fed and formula-fed infants. Temporally interesting features can be interactively discovered with this visualization. Bar charts rank the importance (predictive power for time point) and mean abundance of all microbial features. These bar charts provide an interface for visualizing volatility plots (line plots) of individual features in the context of their importance and abundance; clicking on a bar will display the volatility plot of that feature and highlight in blue that feature’s importance and abundance in the bar charts below.
d. 人类皮肤表面的分子地图。 着色的点代表小分子化妆品硫酸月桂酸钠在人体皮肤上的丰度。样本数据可以在3D模型上交互式可视化,支持空间模式的发现。
d, Molecular cartography of the human skin surface. Colored spots represent the abundance of the small-molecule cosmetic ingredient sodium laureth sulfate on the human skin. Sample data can be interactively visualized in three-dimensional models, thus supporting the discovery of spatial patterns.
QIIME 2设计的原则是可重复、透明和清淅的微生物组数据科学。为实现这一目标,QIIME 2包括一个去中心的数据来源追溯系统:所有分析的详细步骤以及参考文献都自动保存于结果中。用户可以准确回顾这些结果的精确产生过程(图2展示了图1c数据来源的追溯图)。QIIME 2也可以检测到结果损坏,即结果不再有可靠的可重复来源信息。图1中的来源可查看补充文件1中的结果。QIIME 2的结果也是语义类型的(图2),动作(actions)代表可接收的输入类型,清楚数据可应用的动作,可以使用复杂的工作流程减少错误。复杂的工作流程可以采用Jupyter笔记、通用工作流语言(Common Workflow Language,CWL)创建和共享,对其它工作流程的支持正在开发中。
Fig. 2 | QIIME 2 iteratively records data provenance, ensuring bioinformatics reproducibility.
简化的示意图展示创建图1b中物种组成柱状图分析过程的可追溯图。QIIME 2结果(圆形)构成的网络展示数据存储的追溯。动作(平等四边行)应用于QIIME 2的结果并产生新的结果。箭头表示通过方法操作的QIIME 2结果流。 TaxonomicClassifier
和FeatureData [Sequence]
输入包含独立的出处(分别为红色和蓝色),并提供给分类动作(黄色),分类注释序列。分类操作的结果是FeatureData [Taxonomy]
结果,它将两个输入的出处与分类操作相结合。然后使用FeatureTable [Frequency]
输入将该结果提供给barplot
动作,该输入与FeatureData [Sequence]
输入共享一些起源,因为它们是从相同的上游分析生成的。最终的可视化(图1b)具有完整的数据来源,并正确识别输入的共享处理。为了说明的目的,这个简化的表示是从完整的起源图中手动创建的。可以通过补充文件1访问该起源图的交互式完整版本。其它图的可追溯过程见附图1。
This simplified diagram illustrates the automatically tracked information regarding the creation of the taxonomy bar plot presented in Fig. 1b. QIIME 2 results (circles) contain network diagrams illustrating the data provenance stored in the result. Actions (quadrilaterals) are applied to QIIME 2 results and generate new results. Arrows indicate the flow of QIIME 2 results through actions. TaxonomicClassifier and FeatureData[Sequence] inputs contain independent provenance (red and blue, respectively) and are provided to a classify action (yellow), which taxonomically annotates sequences. The result of the classify action, a FeatureData[Taxonomy] result, integrates the provenance of both inputs with the classify action. This result is then provided to the barplot action with a FeatureTable[Frequency] input, which shares some provenance with the FeatureData[Sequence] input, because they were generated from the same upstream analysis. The resulting visualization (Fig. 1c) has the complete data provenance and correctly identifies shared processing of inputs. This simplified representation was created manually from the complete provenance graph for the purpose of illustration. An interactive and complete version of this provenance graph (as well as those for other Fig. 1 panels) can be accessed through Supplementary File 1.
最终,QIIME 2提供了软件开发工具箱(https://dev.qiime2.org),可以整合其它系统如Qiita或BaseSpace中的数据,开发面向不同熟练程度的用户可用的功能(**附图2**)。QIIME 2也提供了QIIME 2 Studio的图形界面工作环境,QIIME 2 View用于终端生物学家、临床和政策制定者零专业基础使用;QIIME 2应用的可编程界面为实现自动化流程采用可交互的Jupyter Notebooks环境中实现;q2cli和q2cwl提供了命令行界面,CWL可支持专业的高性能计算。在目前,计算开支较大的步骤支持并行计算,如去噪、物种分类等。目前正在开发深度整合并行策略,可用的第三方工作流程引擎,目前并行采用CWL方式。
Figure S2. QIIME 2 is interface agnostic.
QIIME 2提供多种使用界面,方便不同计算水平人员使用。
a. 网页QIIME 2 View查看数据或结果工具,用户无需安装软件;这一设计方便团队负责人、医生、决策者探索其他人分析的交互式可视化结果;
b. 喜欢图形界面的用户可使用原生的图型界面QIIME 2 Studio,,无需命令行或编程技巧;
c. 对于熟悉Linux命令行,计算集群使用的用户,推荐使用命令行界面——q2cli;
d. 使用Jupyter Notebooks、对自运化工作流程感兴趣的数据科学家,可使用Python 3接口的artifact API
The full suite of QIIME 2 functionality is useful to and usable by researchers ranging widely in their computational sophistication, a major advantage over technologies such as QIIME 1 that provide a single interface. (a) Users wanting to view QIIME 2 results or data provenance can use QIIME 2 View without installing QIIME 2, which is convenient for lead investigators, clinicians, or policy makers who may want to explore interactive visualizations generated by others. (b) Researchers who prefer graphical interfaces can use QIIME 2 Studio, our prototype graphical interface. This is convenient for users without command line or programming skills. (c) Power users (e.g., who are comfortable with the Linux command line and/or regularly work on institutional computer clusters), can use QIIME 2 through the command line interface, q2cli. (d) “Data scientists” (e.g., users who are programmers, who work in Jupyter Notebooks, or who are interested in automating QIIME 2 workflows), can use QIIME 2 through the Python 3 “artifact API”.
目前也有一些开源且强大的微生物组数据科学软件工具,如mothur, phyloseq以及其它在Bioconductor上的R包和biobakery suite。微生物组分析平台mothur经常与QIIME 1和QIIME2比对,主要的不同是交互式可视化:QIIME 2提供许多种交互可视化工具,详见图1,而mothur只专注于产生数据,方便其它工具读取和可视化。phyloseq工具善长微生物组数据的统计分析,可产生出版级的可视化结果,但它是从特征表起始,上游分析依赖其它流程,在Bioconductor上还有其它类似的工具。biobakery suite目前对QIIME 2的功能有互补,我们也与其沟通并将其开发为QIIME 2的插件版,可以在QIIME 2平台中可用,如q2-metaphlan2
实现在QIIME 2中运行MetaPhlAn2。QIIME 2是一个基于Python的微生物组数据科学平台,支持来源追溯、多组学分析、多种界面操作方式、可扩展和配套开发工具。在补充方法中有用户对QIIME 2的评价。
上以分析结果均由插件生成,文件格式采用多语言通用环境,如Jupyter Notebooks、BIOM格式被主流工具支持。多样化的可交互操作软件生态系统对该领域大有益处,因为它允许有经验的用户获得他们数据的多角度视角,并允许新手生物信息学家在他们最熟悉的编程环境中工作(例如,phyloseq允许用户使用R语言环境,而QIIME 2允许用户使用Python环境)。 我们计划继续与这些工具的开发人员以及基因组学标准联盟等组织合作,提供插件和标准,以确保相互可操作性,以及开发自动从微生物数据共享平台(如Qiita)、 欧洲生物信息学研究所(EBI)欧洲阅读档案(ERA)和国家生物技术信息中心(NCBI)序列阅读档案(SRA)导入数据的工具。
微生物组研究的进展有望改善健康和世界的许多方面,QIIME 2将通过实现易用的、社区支持的微生物组数据科学平台来帮助推动这些领域的进步。
图1a的数据自自EMP项目 ftp://ftp.microbio.me/emp/release1 , 和下载自Qiita的美国人肠道项目 (AGP) (http://qiita.microbio.
me) study ID 10317。图1b也下载自Qiita,study ID 10249或EBI访问号ERP016173。图1c的数据下载自Qiita编号study ID 925 或EBI 访问号ERP022167。图1d的数据保存于GitHub https://github.
com/biocore/q2-ili 。图1的可交互版本文件位于 https://github.com/qiime2/paper1
QIIME 2对所有用户可用,包括商业用途,源代码见 https://github.com/qiime2 。帮助文件可访问论坛 https://forum.qiime2.org
补充信息,见文章主页 https://doi.org/10.1038/s41587-019-0209-9
Figure S3. Anatomy of a QIIME 2 Archive (i.e., .qza or .qzv file).
QIIME2存储的数据采用目录结构化结果,称为存档。这些存档为压缩格式,方便数据移动。目录结构有唯一的根目录,并有UUID作为标识。
QIIME 2 stores data in a directory structure called an Archive . These archives are zipped to make moving data convenient. The directory structure has a single root directory named with a UUID which serves as the identity of the archive.
我们建立一个qiime2的目录对本流程进行初步了解
wd=~/test/qiime2
mkdir $wd
cd $wd
详细用法将在本月底软件更新后,推出中文版教程。
很多QIIME 2新用户困惑的是结果为特殊格式,不可直接查看,使用不方便。
其实,qza和qzv格式就是zip的压缩包,可使用unzip直接解压
# 下载代表性序列(OTU)
wget https://docs.qiime2.org/2018.8/data/tutorials/moving-pictures/rep-seqs.qza
# 解压
unzip rep-seqs.qza
# 查看序列文件前4行
head -4 8dc793b8-7284-462a-8578-6370ffccebdc/data/dna-sequences.fasta
是不是觉得QIIME 2的结果很熟悉了,让我们开始全新的可重复计算新时代吧!
>f352c1f1efecf483511c2270aabd0ae6
TACGTAGGGTGCGAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGTTTTGTAAGACAGAGGTGAAATCCCCGGGCTCAACCTGGGAACTGCCTTTGTGACTGCAAGGCTG
>82e72255267397b777a1afd44ea22755
TACGGAGGATCCAAGCGTTATCCGGAATCATTGGGTTTAAAGGGTCCGTAGGCGGTTTAGTAAGTCAGTGGTGAAAGCCCATCGCTCAACGGTGGAACGGCCATTGATACTGCTAGACTT
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019. doi:10.1038/s41587-019-0209-9
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-19 14:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社