woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

QIIME 2教程. 31名词Glossary(2020.2)

已有 1408 次阅读 2020-5-25 20:18 |个人分类:QIIME2|系统分类:科研笔记

前情提要

名词解释

User Glossary

https://docs.qiime2.org/2020.2/glossary/

译者注:以下是QIIME 2中经常会用到的术语,由于有些术语无法准确翻译为中文,有的即使翻译成了中文,意思也会和原意有偏差,所以鼓励大家使用英文原文。

动作(Action)

这是对方法(method)、可视化工具(visualizer)或流程(pipeline)的统称。Action是由QIIME 2插件定义的。

对象(Artifact)

对象(Artifact)是QIIME 2的“结果”,它用于表示分析产生的中间产物(译者注:类似于化学反应的中间产物)。之所以称之为“artifact”,是因为它是QIIME 2软件产生的,而且被QIIME 2程序所使用的数据,而不是我们人类直接可读的结果。Artifact可以产生于导入数据后产生的文件,也可是QIIME 2输出的文件。Artifact一般以.qza作为扩展名,这种扩展名代表是QIIME 2压缩的artifact文件。Artifact可以作为action的输入文件,用QIIME 2 Artifact API的工具加载后供Python 3使用,或者用qiime2R加载供R使用。Artifact也可以作为QIIME 2的输出文件供其他软件使用。

数据来源/出处(data provenance)

详见下面的“去中心化数据来源(decentralized data provenance)”部分。

数据格式(data format)

说到数据格式,这是用“文件”的角度来谈artifact,即artifact被作为一个或多个文件存储在磁盘上。QIIME 2支持许多文件格式,对于给定的语义类型来说,QIIME 2的输入或输出文件有多种数据格式可用。

数据类型(data type)

这是从计算机内存的角度来谈artifact。数据类型的讲法只有Artifact API用户或插件开发者才会用到。QIIME 2支持许多数据类型,对于给定的语义类型,有多种数据类型可供查看QIIME 2对象(Artifact)使用。

去中心化数据溯源(decentralized data provenance)

这是描述QIIME 2“结果”信息是如何被产生的。这将包括所有QIIME 2 动作的细节信息,比如所有参数的值、作为UUIDs的结果和所有输入文件的参考文献。关于UUIDs的信息下文有详述。数据来源还包括QIIME 2结果的文献引用信息。这些引用信息必须列举在你发表的论文中。所有QIIME 2结果都包含内嵌的数据来源信息,可以用QIIME 2 View来可视化这些信息。数据来源是内嵌在“结果”中的,而不是存储在维护所有结果的中心化数据库中。QIIME 2的数据来源信息是去中心化的。

特征(feature)

“特征”是指一个观测单位,比如一个OTU、一个序列变异(ASV)、一个基因、一个代谢物等。QIIME 2使用这种通用的术语(指”特征“)是由于QIIME 2支持许多类型的”特征”。

输入文件(input)

供一个动作(action)分析用的对象(artifact)就是输入文件。比如,表格q2-feature-table插件中filter-features动作(action)的输入文件。译者注:其实简单说,用于QIIME 2分析的都是输入文件。

方法(method)

是QIIME 2“动作(action)”的一种类型,这里讲的“动作”是用一个或多个对象/参数作为输入,然后产生一个或多个“对象”作为“输出”。比如,在q2-feature-table插件中的filter-features动作就是一个“方法”。

输出(output)

运行一个“动作”产生的结果叫“输出”。比如,filtered-tableq2-feature-tablefilter-features动作的一个输出。

参数(Parameter)

一种人为可调整的“原始型(primitive type)”,以便让“动作(action)”产生不同输出结果。比如,min-frequencyq2-feature-tablefilter-features动作的一个参数。关于“原始型(primitive type)”的介绍请见下面内容。

流程(Pipeline)

是一种QIIME 2动作,它通常整合两个或多个动作。而一个流程是将一个或多个对象(artifact)或参数(parameter)作为输入,然后产生一个或多个结果(比如对象或可视化结果)作为输出。比如, q2-diversity插件中的 core-metrics action就是一个流程。译者注:如果把动作(action)比喻为糖葫芦上的一个山楂,那流程就是一串糖葫芦;或者再讲的直白点,流程就是一系统分析方法的串联集合,让每个分析过程无缝衔接,类似于流水线,高效完成分析任务,仅此而已。

插件(Plugin)

插件以动作(action)的形式提供分析功能。所有插件可以通过所有界面进入。插件可以有任何人开发和分发。在撰写本文时,在安装QIIME 2时提供了称为“核心发行版”的一系列插件。其他插件也可以安装到QIIME 2中。能够帮助发现其他插件的主要资源是QIIME 2库。具有QIIME 2论坛帐户的任何人都可以在QIIME 2库上共享其插件。 我们计划逐步通过QIIME 2库分发所有QIIME 2插件,从而逐步淘汰核心分发。

数据溯源(provenance)

见上面“decentralized data provenance”部分。

原始型(primitive type)

是调整动作(action)中参数的具体数值,比如字符串(比如文本)、整数、布尔逻辑(真、假)等。原始型仅作为动作的输入,不是QIIME 2产生的输出信息。

qza

QIIME 2中对象的文件格式,详见上面artifact。

qzv

QIIME 2中可视化对象的文件格式,详见下文visualization。

分析结果(result)

是artifact或visualization的总称。

样品/样本(sample)

这个太好理解了,不翻译了哈。

semantic type 语义类型

语义类型描述了QIIME 2中数据的含义。QIIME2中的所有结果都有一个与之关联的语义类型,并且当将数据导入QIIME 2时,用户必须提供该数据的语义类型。

QIIME 2对语义类型的使用提供了与他人就数据进行通信的明确方式,并允许QIIME 2对数据进行推断并帮助用户防止产生错误。一个示例有助于说明什么是语义类型以及QIIME 2如何使用它们。QIIME 2包含两种相关的语义类型Phylogeny[Rooted]和 Phylogeny[Unrooted],分别代表有根和无根的系统发育树。有根和无根系统树都可以存储在newick文件中,并且不解析该文件就无法轻松判断系统树是否有根。一些动作(action),如插件q2-diversityβ-系统发生法应仅应用于有根的系统发育树。通过将语义类型与系统发生树对象(artifact)相关联,QIIME 2可以确定是否向动作(action)提供了正确的数据类型,而无需首先解析文件(解析很慢,因此会延迟将错误呈现给用户),然后可能根据观察到的结果做出假设。如果用户不小心提供了QIIME 2 动作不可接受的语义类型的数据,则QIIME 2可以快速检测到此不匹配,并向用户提供有关错误以及如何纠正错误的详细信息。

语义类型不应与定义如何在磁盘上表示数据的数据格式混淆 。例如,FeatureTable[Frequency]可以将另一个QIIME 2语义类型写入到BIOM格式的文件或制表符分隔的文本文件中。通过区分数据格式和语义类型,QIIME 2可以支持根据用户需求导入和导出不同的文件格式。语义类型也不应与数据类型混淆 。例如, FeatureTable[Frequency]语义类型可以在内存中表示为biom.Table对象或pandas.DataFrame对象,对于不同的应用,这些表示中的一种可能比另一种更有用。无论使用哪种内存表示形式,数据的含义都是相同的。通过区分数据类型和语义类型,QIIME 2允许开发人员和用户选择对于给定任务最方便的数据结构。

类型(type)

类型是一个不明确的术语,因此我们尽量避免使用它来支持更具体的术语、语义类型原始类型数据格式数据类型

UUID

QIIME 2使用UUID,即“通用唯一标识符(Universally Unique Identifiers)”来引用所有结果以及执行的动作。采用数据溯源法,UUID可以用于追踪对象(artifact)的来源。UUID是一种标记QIIME 2 结果的好方法(译者注:即给每个结果打上唯一“标签”),因为UUID永远不会改变,除非让一个QIIME 2对象失效。UUID与文件名不同,文件名易于更改,因此用于追踪和溯源是不可靠的。

视图(view)

对象数据的特定表示形式,例如,数据格式数据类型

可视化工具(Visualizer)

把数据绘制成图表方便查看的分析方法。一种QIIME 2动作,它将一个或多个对象或参数作为输入,并产生一个可视化效果作为输出。 例如,q2-feature-table插件中的summary操作是可视化工具。

Visualization 可视化

可视化结果(visualization,也叫可视化文件)是QIIME 2分析的最终输出结果,它的意思是该结果是由QIIME 2产生的,而且是被人类可以阅读的结果(与QIIME 2或其他软件可以读取的相反)。可视化结果只能由可视化工具或流程产生。可视化结果(visualization)以.qzv作为扩展名,它代表QIIME 2 zip压缩的可视化结果(visualization)。可视化文件可以用QIIME 2 View https://view.qiime2.org/将其呈现出来,使用QIIME 2 View不需要安装QIIME 2软件。QIIME 2界面通常支持这种可视化,这需要用到qiime tools view命令行。

Reference

https://docs.qiime2.org/2020.2

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

译者简介

刘永鑫,博士。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士学位,2016年中科院遗传发育所博士后出站留所任工程师。目前主要研究方向有微生物组数据分析、方法开发和科学传播。目前以第一作者(含共同)或微生物组数据分析负责人在ScienceNature BiotechnologyCell Host & Microbe 等杂志发表论文20余篇,引用千余次。作为中国唯一单位代表参与微生物组分析平台QIIME 2开发。受邀以第一作者和/或通讯作者(含共同)在Protein & CellCurrent Opinion in Microbiology遗传 等杂志发表微生物组研究方法综述。2017年7月创办“宏基因组”公众号,目前分享本领域相关原创文章1800余篇,代表作品有《微生物组图表解读、分析流程和统计绘图》《QIIME2中文教程》等系列,关注人数9万+,累计阅读1400万+。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

点击阅读原文,跳转最新文章目录阅读

https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1234924.html

上一篇:QIIME 2教程. 30补充资源SupplementaryResources(2020.2)
下一篇:JoVE微生物组专刊征稿,写方法拍视频教程发SCI(宏基因组公众号专属福利)
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 04:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部