qiime tools import --input-path seqs.fna --output-path seqs.qza --type 'SampleData[Sequences]'
结果
seqs.qza: 导入的序列文件
解释
这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。
2.使用dereplicate-sequences进行序列去冗余
命令
qiime vsearch dereplicate-sequences --i-sequences seqs.qza --o-dereplicated-table table.qza --o-dereplicated-sequences rep-seqs.qza
结果
rep-seqs.qza: 代表序列
table.qza: 特征表
解释
序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。
FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。
FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。
-
特征[频率]和特征数据[序列]的聚类
Clustering of FeatureTable[Frequency] and FeatureData[Sequence]
1.无参/从头聚类De novo clustering
命令
qiime vsearch cluster-features-de-novo --i-table table.qza --i-sequences rep-seqs.qza --p-perc-identity 0.99 --o-clustered-table table-dn-99.qza --o-clustered-sequences rep-seqs-dn-99.qza
结果
table-dn-99.qza: 99%相似度聚类的OTUs表。
rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。
解释
该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。FeatureData [Sequence]对象将包含定义每个OTU聚类的**质心(centroid)**序列,即最高丰度序列。
2.有参聚类Closed-reference clustering
命令
qiime vsearch cluster-features-closed-reference --i-table table.qza --i-sequences rep-seqs.qza --i-reference-sequences 85_otus.qza --p-perc-identity 0.85 --o-clustered-table table-cr-85.qza --o-clustered-sequences rep-seqs-cr-85.qza --o-unmatched-sequences unmatched-cr-85.qza
结果
table-cr-85.qza: 特征表。
rep-seqs-cr-85.qza: 代表序列。
unmatched-cr-85.qza: 无法比对的序列。
解释
cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。
注:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。
3.半有参/开放参考聚类Open-reference clustering
命令
qiime vsearch cluster-features-open-reference --i-table table.qza --i-sequences rep-seqs.qza --i-reference-sequences 85_otus.qza --p-perc-identity 0.85 --o-clustered-table table-or-85.qza --o-clustered-sequences rep-seqs-or-85.qza --o-new-reference-sequences new-ref-seqs-or-85.qza
结果
new-ref-seqs-or-85.qza: 新参考序列。
rep-seqs-or-85.qza: 代表序列。
table-or-85.qza: 特征表。
解释
cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。
注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。
-
数据导出
qiime tools export --input-path seqs.qza --output-path exported-seqs
export 命令可以导出过程⽂件qza和qzv的数据
qiime tools extract --input-path seqs.qza --output-path extracted-seqs
extract 命令不只可以到导出过程⽂件qza和qzv的数据,还包括⽣成此⽂件的相关软件版本,以及步骤的说明
注:也可以unzip seqs.qza,和extract相同效果
.biom文件,将其转换为 tsv 文件的命令
biom convert -i feature-table.biom -o table.tsv --to-tsv
输出结果为feature-table-bacterica.tsv ,即文本格式的Feature table。Feature table的第一列为OTU名称,第2列以后为每个样本中该OTU的数量。OTU按照其在样本组中的总数量排序。
注:qza/qzv格式可视化,网站:QIIME 2 View