|
Dada2方法要求的输入测序数据必须是已经拆分样本(类似qiime1裂库)的测序数据,这个测序数据也必须是带质量信息的。对于双端测序数据,不要提前拼接,有些人可能会考虑先拼接,再把拼接好的测序数据当做单端测序数据进行分析,但是这就违背了dada2的假设,dada2假设随着测序长度的增长,测序质量会稍微增加,后急剧下降,而拼接好的序列,测序质量应该是先降低后增加的。因此如果计划使用DADA2来合并和消除双端数据的噪声,请在用DADA2去噪之前不要合并序列;DADA2可以将未合并的序列,在去噪过程中双端合并。
deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入,将对反向序列不作任何操作。请注意,deblur接受合并的序列,并将它们视为单端序列,因此如果使用deblur进行去噪,需要先合并读取。
1. 下载双端未合并数据(也可以只用自己拆分后的数据)
mkdir read-joining cd read-joining wget -c \ -O "demux.qza" \ https://data.qiime2.org/2021.2/tutorials/read-joining/atacama-seqs.qza demux.qza: 拆分后样本数据 |
2. 序列合并
qiime vsearch join-pairs \ --i-demultiplexed-seqs demux.qza \ --o-joined-sequences demux-joined.qza demux-joined.qza:合并结果
结果可视化 qiime demux summarize \ --i-data demux-joined.qza \ --o-visualization demux-joined.qzv demux-joined.qzv: 可视化统计结果 |
这份摘要报告可以确定合并后序列大约可用长度(当用deblur去噪时,会回到这个问题上)。在这个可视化中查看质量图(箱线图)时,如果将鼠标悬停在一个特定的位置上,将看到有多少个序列至少有那么长(为计算序列质量而采样的序列数量统计)。记下最高的序列位置,其中大部分(比如,>99%)的序列至少有那么长。
例如,当将鼠标悬停在可视化箱线图中的一个黑箱体上时,可以看到40126个序列中随机挑选有10000个用于估计该位置的质量分数分布。当我将鼠标悬停在位置250(用红色方框表示)上时,我看到一些序列没有这么长,因为只有9994个序列用于估计该位置的质量分数分布。下面的红色框和红色文本告诉我,有些序列没有这么长。当我将鼠标悬停在254号位置(也用一个红框表示)上时,我看到许多序列没有这么长,因为只有845个序列用于估计该位置的质量分数分布。
基于对这些图的比较,注意到大多数序列至少有250个碱基长。从质量分数图中为--p-trim-length选择合适的序列长度值。这将把所有序列修剪到这个长度(250),并丢弃任何小于这个长度的序列。
【备注】某个位置的序列个数信息在文件Download forward parametric seven-number summaries as TSV 找到
【参考】
QIIME 2教程. 18序列双端合并read-joining(2021.2)_刘永鑫Adam的博客-CSDN博客
Dada2和deblur降噪质控过程详见:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-7 17:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社