lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之数据导入(importing data)

已有 4120 次阅读 2022-11-5 08:39 |系统分类:科研笔记

软件版本qiime2-2022.2

【目的】qiime2如何导入带质量值的FASTQ测序数据(fasta格式,本文暂无涉及)

使用QIIME 2,可以大致导入3种常见类型的fastq数据:


(一)采用地球微生组计划(EMP)标准方法产生的FASTQ格式数据

数据来源

mkdir -p emp-single-end-sequences

wget -O "emp-single-end-sequences/barcodes.fastq.gz" \

"https://data.qiime2.org/2018.11/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"

wget -O "emp-single-end-sequences/sequences.fastq.gz" \

"https://data.qiime2.org/2018.11/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"

图片1.png

格式描述

单端:

此类数据标准包括两个文件,扩展名均为fastq.gz,

1.一个是barcode文件,(barcodes.fastq.gz)

2.另一个是样品混样测序数据文件,(sequences.fastq.gz)

time qiime tools import \

  --type EMPSingleEndSequences \

  --input-path emp-single-end-sequences \

  --output-path emp-single-end-sequences.qza

双端:

此类数据标准包括三个文件,扩展名均为fastq.gz,一个是fastq.gz的正向序列文件;一个是fastq.gz的反向序列文件;一个是barcode文件,与序列对应。

time qiime tools import \

  --type EMPPairedEndSequences \

  --input-path emp-paired-end-sequences \

  --output-path emp-paired-end-sequences.qza

(二)CASAVA 1.8(Illumina Casava 1.8版本)多样本混合格式的FASTQ数据

参考科学网—Fastq 格式说明 & (Phred33 or Phred64) - 揭文才的博文 (sciencenet.cn)

数据来源

wget \

 -O "casava-18-paired-end-demultiplexed.zip" \

 "https://data.qiime2.org/2019.4/tutorials/importing/casava-18-paired-end-demultiplexed.zip"

图片3.png
格式描述

单端:

在Casava 1.8单样本(单端)的格式中,有一个fastq.gz文件的包含每个样品的单端序列。样品文件名包括标识符,看起来像L2S357_15_L001_R1_001.fastq.gz。文件名中下划线分隔的区域代表的意义如下:

图片6.png

time qiime tools import \

  --type 'SampleData[SequencesWithQuality]' \

  --input-path casava-18-single-end-demultiplexed \

  --input-format CasavaOneEightSingleLanePerSampleDirFmt \

  --output-path demux-single-end.qza

双端:

格式同上面单端,只是每个样本有一对文件。R1和R2代表正向和反向测序结果。

time qiime tools import \

  --type 'SampleData[PairedEndSequencesWithQuality]' \

  --input-path casava-18-paired-end-demultiplexed \

  --input-format CasavaOneEightSingleLanePerSampleDirFmt \

  --output-path demux-paired-end.qza

(三)任何其他类型的fastq数据

自己创建一个名为“清单文件”的文本文件manifest

在文件清单中,fastq.gz文件绝对路径必须精确,下面的示例说明了一个示例的fastq.gz数据的清单文件($PWD当前路径):

图片7.png

其他类型FastQ数据有四种常用格式变体,导入时必须将其指定为QIIME 2的类型。我们提供其中两种导入的示例:

V2是为了区别于旧版csv清单文件格式的导入。建议以新教程为准,更合理。导入质量值不同编码的两类文件Phred33/64 (一般Phred33比较常见,只有非常老的数据才有Phred64格式或测序公司非正常设置的结果,建议转换成了这个主流格式。质量值33类型的双端数据<Phred33V2>,划重点,此类型最为常用)

1.   SingleEndFastqManifestPhred33V2(质量值33类型的单端数据)

time qiime tools import \

  --type 'SampleData[SequencesWithQuality]' \

  --input-path se-33-manifest \

  --output-path single-end-demux.qza \

  --input-format SingleEndFastqManifestPhred33V2

2.   PairedEndFastqManifestPhred64V2(质量值64类型的双端数据)

time qiime tools import \

  --type 'SampleData[PairedEndSequencesWithQuality]' \

  --input-path pe-64-manifest \

  --output-path paired-end-demux.qza \

  --input-format PairedEndFastqManifestPhred64V2

--input-path为清单文件

【备注】

--input-format 数据格式--type 文件类型

目前支持69种格式

帮助命令:qiime tools import --show-importable-formats

目前支持44种

帮助命令:qiime tools import --show-importable-types

质量值类型单|双端 数据
--type(文件类型)--input-format(数据格式)
33单端'SampleData[SequencesWithQuality]'

SingleEndFastqManifestPhred33

SingleEndFastqManifestPhred33V2

双端'SampleData[PairedEndSequencesWithQuality]'

PairedEndFastqManifestPhred33

PairedEndFastqManifestPhred33V2

64单端'SampleData[SequencesWithQuality]'

SingleEndFastqManifestPhred6

SingleEndFastqManifestPhred64

双端'SampleData[PairedEndSequencesWithQuality]'

PairedEndFastqManifestPhred64

PairedEndFastqManifestPhred64V2


【参考】

QIIME 2教程. 09数据导入Importing data(2020.11) (qq.com)

QIIME 2教程. 04人体微生物组分析Moving Pictures(2021.2) (qq.com)





https://blog.sciencenet.cn/blog-994715-1362408.html

上一篇:qimme2-vsearch聚类序列为OTUs
下一篇:QIIME 2安装教程
收藏 IP: 120.244.188.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-17 13:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部