woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

QIIME 2用户文档. 18使用q2-vsearch聚类OTUs(2018.11)

已有 4064 次阅读 2019-1-30 08:54 |个人分类:QIIME2|系统分类:科研笔记

[TOC]

前情提要

使用q2-vsearch聚类序列为OTUs

Clustering sequences into OTUs using q2-vsearch

目前QIIME2支持三个聚类方式:无参(De novo), 有参(closed-reference), 和半有参(open-reference clustering,即先有参比对再将无法比对序列进行无参聚类)。

目前运行vsearch仅能对拆分和质控后的数据进行OTUs聚类 (如SampleData[Sequences]对象), 或质控后的特征表和代表性序列(如FeatureTable[Frequency]FeatureData[Sequence]对象, 这些文件可以由qiime dada2 denoise-*qiime deblur denoise-*命令产生)。第一选择需要两步,在将来可能一步就搞定。第二选择只需一步完成。

QIIME 1用户:在QIIME1中,由split_libraries*.py命令进行样本序列拆分、质量过滤,生成文件为seqs.fna

下载数据

mkdir qiime2-otu-clustering-tutorial
cd qiime2-otu-clustering-tutorial

wget \
  -O "seqs.fna" \
  "https://data.qiime2.org/2018.11/tutorials/otu-clustering/seqs.fna"

wget \
  -O "85_otus.qza" \
  "https://data.qiime2.org/2018.11/tutorials/otu-clustering/85_otus.qza"

序列去冗余

Dereplicating a SampleData[Sequences] artifact

如果您开始分析时使用的是样本拆分、质量控制的序列,例如qiime 1的seqs.fna文件中的序列,那么第一步是将数据导入为qiime 1对象。这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

qiime tools import \
  --input-path seqs.fna \
  --output-path seqs.qza \
  --type 'SampleData[Sequences]'

导入后就进行序列去冗余

qiime vsearch dereplicate-sequences \
  --i-sequences seqs.qza \
  --o-dereplicated-table table.qza \
  --o-dereplicated-sequences rep-seqs.qza

输出结果:

  • rep-seqs.qza: 代表序列
  • table.qza: 特征表

序列去冗余的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。这些文件类似于qiime dada2 denoise-*qiime deblur denoise-*生成的文件,只是在去噪过程中没有应用去噪、去除嵌合体或其他质量控制。(在本例中,这些数据的唯一质量控制是在导入步骤之前,即在qiime 2之外的程序进行的)

特征[频率]和特征数据[序列]的聚类

Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

Qiime2中的OTU聚类目前应用于一个 FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。这些对象可以来自各种分析流程,包括qiime vsearch dereplicate-sequences(如上所示)、qiime dada2 denoise-*qiime deblur denoise-*,或者下面所示的一个聚类过程(例如,以较低的百分比序列一致率对数据进行重新聚类)。

FeatureData[Sequence]对象中的序列两两比对(de novo 聚类)或比对参考数据库(closed-reference聚类),然后可折叠特征表FeatureTable中的特征,从而形成输入特征的新特征聚类。

无参聚类

De novo clustering

特性表的无参(从头/新)聚类(De novo clustering)可以用如下命令实现。在这个例子中,聚类是按序列相似度99%的水平执行的,以创建99%的OTU。

qiime vsearch cluster-features-de-novo \
  --i-table table.qza \
  --i-sequences rep-seqs.qza \
  --p-perc-identity 0.99 \
  --o-clustered-table table-dn-99.qza \
  --o-clustered-sequences rep-seqs-dn-99.qza

输出对象:

  • table-dn-99.qza: 99%相似度聚类的OTUs表
  • rep-seqs-dn-99.qza: 99%相似度聚类的代表序列

注意,此代表序列为每个OTU簇的中心序列,而非最高丰度序列。

有参聚类

Closed-reference clustering

特性表的有参聚类可以用如下方法执行。在这个例子中,聚类是在85%的一致性下对GreenGenes 13_8 85%的OTU参考数据库进行比对的。参考数据库作为FeatureData[Sequence]对象。

注释:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

qiime vsearch cluster-features-closed-reference \
  --i-table table.qza \
  --i-sequences rep-seqs.qza \
  --i-reference-sequences 85_otus.qza \
  --p-perc-identity 0.85 \
  --o-clustered-table table-cr-85.qza \
  --o-clustered-sequences rep-seqs-cr-85.qza \
  --o-unmatched-sequences unmatched-cr-85.qza

输出对象:

  • table-cr-85.qza: 特征表
  • unmatched-cr-85.qza: 无法比对的序列
  • rep-seqs-cr-85.qza: 代表序列

cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,末匹配序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其序列的集合,它们与85%标识的参考数据库不匹配。作为输入提供的参考序列应被用作定义有参OTU选择中的特征的序列。

半有参聚类

Open-reference clustering

像上面的有参聚类示例一样,可以使用qiime vsearch cluster-features-open-reference命令执行半有参(开放参考)聚类。

注意:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

qiime vsearch cluster-features-open-reference \
  --i-table table.qza \
  --i-sequences rep-seqs.qza \
  --i-reference-sequences 85_otus.qza \
  --p-perc-identity 0.85 \
  --o-clustered-table table-or-85.qza \
  --o-clustered-sequences rep-seqs-or-85.qza \
  --o-new-reference-sequences new-ref-seqs-or-85.qza

输出对象:

  • new-ref-seqs-or-85.qza: 新参考序列
  • rep-seqs-or-85.qza: 代表序列
  • table-or-85.qza: 特征表

cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

Reference

Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 https://doi.org/10.7287/peerj.preprints.27295v2

译者简介

刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组数据分析和植物微生物组。QIIME 2项目参与人,目前发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章500+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》,关注人数3.5万+,累计阅读500万+。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1159836.html

上一篇:一作解读:EID-2017-宏基因组测序在新发腹泻病毒鉴定中的应用
下一篇:FM-2018-大熊猫的肠道菌群可能并没有特化出发酵纤维素的能力
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 01:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部