|
软件版本:qiime2-2022.2
【目的】qiime2如何导入带质量值的FASTQ测序数据(fasta格式,本文暂无涉及)
使用QIIME 2,可以大致导入3种常见类型的fastq数据:
(一)采用地球微生组计划(EMP)标准方法产生的FASTQ格式数据
数据来源
mkdir -p emp-single-end-sequences |
wget -O "emp-single-end-sequences/barcodes.fastq.gz" \ "https://data.qiime2.org/2018.11/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz" |
wget -O "emp-single-end-sequences/sequences.fastq.gz" \ "https://data.qiime2.org/2018.11/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz" |
格式描述
单端:
此类数据标准包括两个文件,扩展名均为fastq.gz,
1.一个是barcode文件,(barcodes.fastq.gz)
2.另一个是样品混样测序数据文件,(sequences.fastq.gz)
time qiime tools import \
--type EMPSingleEndSequences \
--input-path emp-single-end-sequences \
--output-path emp-single-end-sequences.qza
双端:
此类数据标准包括三个文件,扩展名均为fastq.gz,一个是fastq.gz的正向序列文件;一个是fastq.gz的反向序列文件;一个是barcode文件,与序列对应。
time qiime tools import \
--type EMPPairedEndSequences \
--input-path emp-paired-end-sequences \
--output-path emp-paired-end-sequences.qza
(二)CASAVA 1.8(Illumina Casava 1.8版本)多样本混合格式的FASTQ数据
【参考】科学网—Fastq 格式说明 & (Phred33 or Phred64) - 揭文才的博文 (sciencenet.cn)
数据来源
wget \ -O "casava-18-paired-end-demultiplexed.zip" \ "https://data.qiime2.org/2019.4/tutorials/importing/casava-18-paired-end-demultiplexed.zip" |
格式描述
单端:
在Casava 1.8单样本(单端)的格式中,有一个fastq.gz文件的包含每个样品的单端序列。样品文件名包括标识符,看起来像L2S357_15_L001_R1_001.fastq.gz。文件名中下划线分隔的区域代表的意义如下:
time qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
双端:
格式同上面单端,只是每个样本有一对文件。R1和R2代表正向和反向测序结果。
time qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza
(三)任何其他类型的fastq数据
自己创建一个名为“清单文件”的文本文件manifest。
在文件清单中,fastq.gz文件绝对路径必须精确,下面的示例说明了一个示例的fastq.gz数据的清单文件($PWD当前路径):
其他类型FastQ数据有四种常用格式变体,导入时必须将其指定为QIIME 2的类型。我们提供其中两种导入的示例:
V2是为了区别于旧版csv清单文件格式的导入。建议以新教程为准,更合理。导入质量值不同编码的两类文件Phred33/64 (一般Phred33比较常见,只有非常老的数据才有Phred64格式或测序公司非正常设置的结果,建议转换成了这个主流格式。质量值33类型的双端数据<Phred33V2>,划重点,此类型最为常用)
1. SingleEndFastqManifestPhred33V2(质量值33类型的单端数据)
time qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path se-33-manifest \
--output-path single-end-demux.qza \
--input-format SingleEndFastqManifestPhred33V2
2. PairedEndFastqManifestPhred64V2(质量值64类型的双端数据)
time qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path pe-64-manifest \
--output-path paired-end-demux.qza \
--input-format PairedEndFastqManifestPhred64V2
--input-path为清单文件
【备注】
--input-format 数据格式 | --type 文件类型 |
目前支持69种格式 帮助命令:qiime tools import --show-importable-formats | 目前支持44种 帮助命令:qiime tools import --show-importable-types |
质量值类型 | 单|双端 数据 | --type(文件类型) | --input-format(数据格式) |
33 | 单端 | 'SampleData[SequencesWithQuality]' | SingleEndFastqManifestPhred33 SingleEndFastqManifestPhred33V2 |
双端 | 'SampleData[PairedEndSequencesWithQuality]' | PairedEndFastqManifestPhred33 PairedEndFastqManifestPhred33V2 | |
64 | 单端 | 'SampleData[SequencesWithQuality]' | SingleEndFastqManifestPhred6 SingleEndFastqManifestPhred64 |
双端 | 'SampleData[PairedEndSequencesWithQuality]' | PairedEndFastqManifestPhred64 PairedEndFastqManifestPhred64V2 |
【参考】
QIIME 2教程. 09数据导入Importing data(2020.11) (qq.com)
QIIME 2教程. 04人体微生物组分析Moving Pictures(2021.2) (qq.com)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-17 13:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社