|
案例二(其他fastq数据格式(单端数据))
(一)样本元数据
在开始任何分析之前,熟悉元数据很重要。元数据metadata.tsv。
qiime metadata tabulate --m-input-file metadata.tsv --o-visualization metadata.qzv |
【备注】#q2_type指令可以指定分类数据类型
(二)样本元数据
教程将使用样本清单格式(manifest format)导入序列,这是一种在QIIME 2中导入拆分样本数据的通用方法。普通用户常用的下机数据格式为.fastq文件,需要创建一个清单文件,然后使用qiime tools import命令手动输入。清单文件是一个文本文件(.tsv或.txt格式),它将示例标识符映射到fastq.gz或fastq的绝对文件路径,其中包含示例的序列和质量数据。清单文件还指示每个fastq.gz或fastq文件中的读取方向。fastq.gz文件位置的绝对文件路径可以包含环境变量(例如$PWD)。
清单文件manifest.tsv内容(单端数据):
使用文件清单导入数据: time qiime tools import\ --type "SampleData[SequencesWithQuality]"\ --input-format SingleEndFastqManifestPhred33V2\ --input-path manifest.tsv\ --output-path demux_seqs.qza 结果可视化: time qiime demux summarize --i-data demux_seqs.qza --o-visualization demux_seqs.qzv 输出结果文件:demux_seqs.qzv 【备注】使用qiime demux summarize命令检查样本的序列和测序深度(它提供每个样本中序列数及序列质量的信息) |
结果展示:
【备注】导入数据详见:科学网—QIIME 2教程之数据导入(importing data) - 刘树青的博文 (sciencenet.cn)
(三)序列质量控制与生成特征表和特征序列
QIIME 2插件多种质量控制并生成特征表的方式主要有两种,一种是通过去噪,即生成扩增/绝对序列变体(Absolute Sequence Variants,ASV),ASV是最近发展的新一代方法,在功能上提供更好的分辨率。ASV可以基于400bp或更多序列中单个核苷酸的差异来分离特征,甚至超过99%同一性OTU聚类的分辨率。目前在QIIME 2 中可通过DADA2(q2-dada2)和Deblur(q2-deblur)插件实现。第二种是通过聚类生成操作分类单元(Operational Taxonomic Units,OTU),这种方法自2010年以来便得到了广泛应用。QIIME 2目前可通过q2-vsearch插件实现。两种方法不推荐组合使用。
【补充】OTU(Operational Taxonomic Units):是通过一定距离计算两两不同序列之间的距离度量和相似性,设置特定的阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。
本教程将着重介绍DADA2和Deblur两种方法。
方法一:DADA2
二代测序的错误是随机发生的(即,任意两条序列的测序错误相对是随机发生的,一条序列的任意两个位置的测序错误也是随机发生的,不存在关联性)。DADA2质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列,并同时过滤嵌合序列(即嵌合基因,就是两个基因共用一段DNA序列,这两个基因称为嵌合基因)。在DADA2中,双端合并,去除嵌合体,截去接头序列降噪生成feature table都是一步完成的。
【补充】phiX序列通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量。最主要的目的:1、调节碱基平衡,改善测序仪的空间校正,便于后期提高base calling的准确性;2、由于Phix序列已知基因组较小,在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较,预估测序指标。
【备注】运行DADA2之前要确保测序数据满足以下规范:
(1)样品已被拆分好,即每个样品一个fq/fastq文件(或者双端成对fq文件);
(2)已经去除非生物核酸序列,比如:引物(primers),接头(adapters or barcodes),linker等;
(3)如果样品是下机的双端测序,其应具有双端测序的相匹配的两个fq文件。
使用DADA2插件进行质量控制: time qiime dada2 denoise-single | --p-trim-left:截取左端低质量序列。用于切除低质量序列、barocde或引物。 --p-trunc-len:序列截取长度,也是为了切除有段低质量序列。一般从序列质量开始大幅度下降的位置开始切除。 |
【命令注释】 (1)在使用qiime dada2 denoise-single/ qiime dada2 denoise-paired时可设置--p-n-threads 参数,用于设置运行时使用的线程数量。线程越多,则运行速度越快。当线程设置为0时则默认使用全部线程; (2)--p-trim-left截取左端低质量序列,有时用于切除低质量序列、barocde或引物。查看demux_seq.qzv文件中的箱线图,左端质量都很高,无低质量区,设置为0;或可直接忽略此参数设置; (3)--p-trunc-len序列截取长度,也是为了去除右端低质量序列,我们看到大于150以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为150; (4)当处理双端数据时,需考虑截取后的序列是否可以成功拼接。目前最短的拼接长度为引物长度+12bp。 |
* 统计结果可视化
qiime metadata tabulate --m-input-file dada2_stats.qza --o-visualization dada2_stats.qzv |
内容为每个样本的输入、过滤、去噪和非嵌合体的统计结果。展示了样本的质量控制结果,用于样本异常筛选和特征表抽平标准化。
* 特征表可视化
qiime feature-table summarize --i-table dada2_table.qza --o-visualization dada2_table.qzv --m-sample-metadata-file metadata.tsv |
下图展示了样本数、特征数和分布等信息。
下图展示了每个样本中的特征数目
下图特征信息,分别为特征名称、出现频率和共出现在多少个样本中。
* 代表序列可视化
qiime feature-table tabulate-seqs --i-data dada2_rep_set qza --o-visualization dada2_rep_set.qzv |
下图展示代表序列统计信息。有长度摘要、不同百分比下的长度统计和具体代表序列碱基信息
方法二:Deblur
PCR和测序过程中的噪音限制了区分更相近的物种。一些特殊的生态应用与科学研究需要更精确的物种区分。因此,提出了Deblur去噪的方法。Deblur方法提出了sub-operational-taxonomic-unit (sOTU) 提出更精确的分类亚OTU的概念,此概念与ASV意义相同,只是名字不同。
【备注】deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入,将对反向序列不作任何操作。请注意,deblur接受合并的序列,并将它们视为单端序列,因此如果使用deblur进行去噪,需要先合并读取。
第一步 按测序碱基质量过滤序列
time qiime quality-filter q-score --i-demux demux_seqs.qza --o-filtered-sequences demux-filtered.qza |
第二步 deblur去噪16S过程,输入文件为质控后的序列,设置截取长度参数,生成结果文件有代表序列、特征表、样本统计
time qiime deblur denoise-16S |
可视化输出文件,和dada2结果类似: 碱基质量过滤统计结果 |
Deblur具有以下特点:
(1)使用误差分布来获得假定的无误差序列;
(2)减少了计算的需求,得到了更高的特异性和敏感性;
(3)只受扩增序列读长和多样性的限制;
(4)可以在单个样本水平上使用。
【补充】dada2和deblur详情见:科学网—QIIME 2教程之生成特征表和特征序列(案例一) - 刘树青的博文 (sciencenet.cn)
【参考】
数据下载:百度网盘 请输入提取码 (baidu.com) | 密码1234 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 15:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社