|
在数据量比较小的情况下,dada2(deblur)分析的输入数据最好提前将barcodes和引物这些不想要的adapters切除,虽然dada2(deblur)也能粗略切除barcodes和引物,但是做不到cutadapt插件那样精细。
【备注】
虽然可在dada2(deblur)步骤时设置合适的参数去除引物(论坛里建议在使用dada2处理数据之前先去掉引物)。
Dada2方法要求的输入测序数据必须是已经拆分样本(类似qiime1裂库)的测序数据,这个测序数据也必须是带质量信息的。
(一)区分样本的带质量信息的单端/双端测序数据
国内目前大多数公司给的测序数据形式都是这个,每个样本两个fastq文件,一个放正向序列,一个放反向序列(单端测序只有正向)。要是每个样本两个fasta文件(序列的质量信息已被删除)呢?不好意思,qiime2处理不了这种数据,当然你也可以写个脚本(如python),把序列的质量信息都填充成高质量值(既然已经经过质控,生成fasta,那么我们就可以假设这些序列的质量值都很高了),伪装成fastq文件,这样也能用下面的步骤导入,不过fasta最好还是用qiime1分析。要是双端测序数据一个样本只有一个文件(正向序列和反向序列没有分开放)呢?那你也可以写个脚本(如python)根据序列头的“1”和“2”来把正向序列和反向序列拆开,再用下面的步骤导入。这里,我们只提供大多数情况(每个样本两个fastq文件)的处理步骤:(1)建立一个manifest文件,这个文件公司不会给你的,你需要自己手动书写。(2)单端/双端测序数据和manifest文件,导入数据。
因为已经按样本拆分好数据,所以一般此类型数据中不存在barcodes。导入数据后,直接后续去除引物,序列质控和生成特征序列和特征表。
【备注】
详见:《QIIME 2教程之数据导入》 (三)任何其他类型的fastq数据(科学网—QIIME 2教程之数据导入(importing data) - 刘树青的博文 (sciencenet.cn))
(二)不区分样本的带barcodes、带质量信息的单端/双端测序数据
其实目前国内很多公司给的应该是区分样本(不同样本的序列放在不同文件里)的带barcodes和引物的fastq测序数据,这种情况你可以用(一)中的方法导入,再用dada2 --p-trim-left参数大致切一下barcodes和引物(deblur --p-left-trim-len);或者你可以选择稍微精确一点但是费事一点的方法,先把所有样本的序列合并到一个文件(如果双端,正向、反向文件分开合并),再用下面的方法完成数据导入,barcode拆分样本,去除引物。
以下类型(Multiplexed*),主要适用于不区分样本的,所有样本测序数据放在一个文件,没有切除barcodes和引物(如果是双端测序数据,则正向、反向分开,只有正向序列fastq里有barcodes)的数据。
数据导入类型:
MultiplexedSingleEndBarcodeInSequence | 单端 |
MultiplexedPairedEndBarcodeInSequence | 双端 |
单端数据
1. 准备测序数据
没有拆分的单端数据放到一个目录:fastq/,分别命名为:forward.fastq.gz
metadata.tsv:
sample-id Barcode Lin027 GATCTGCA Lin028 GATCTGCA Lin029 GATCTGCA Lin032 GATCTGCA Lin033 GATCTGCA |
2. 数据导入
qiime tools import \ --type MultiplexedSingleEndBarcodeInSequence \ --input-path fastq/ \ --output-path multiplexed-seqs.qza | --input-path 单端数据的路径 |
3. cutadapt插件区分样本,并去除barcode序列
qiime cutadapt demux-single \ --i-seqs multiplexed-seqs.qza \ --m-barcodes-file metadata.tsv \ --m-barcodes-column Barcode \ --o-per-sample-sequences demultiplexed-seqs.qza \ --o-untrimmed-sequences untrimmed.qza | --i-seqs指定的是上一步的输出, --m-barcodes-column指定的是metadata.tsv中,barcodes在所在列的列名。 demultiplexed-seqs.qza这个文件是拆分好的数据,并且已经去掉了barcode序列。 |
4. 去除引物
qiime cutadapt trim-single \ --i-demultiplexed-sequences DemuxSeq.qza \ --p-front CCTACGGGNGGCWGCAG \ --o-trimmed-sequences trimmed-seqs.qza | --p-front指定引物 |
双端数据
1. 准备测序数据
没有拆分的双端数据放到一个目录:muxed-pe-barcode-in-seq,分别命名为:forward.fastq.gz reverse.fastq.gz
sample-metadata.tsv:
sample-id forward-barcodes reverse-barcodes Lin027 GATCTGCA CTACGATG Lin028 GATCTGCA GACATAGC Lin029 GATCTGCA GATCTGCA Lin032 GATCTGCA GCGTATGA Lin033 GATCTGCA GTATGCGA |
2. 数据导入
qiime tools import \ --type MultiplexedPairedEndBarcodeInSequence \ --input-path muxed-pe-barcode-in-seq \ --output-path multiplexed-seqs.qza | --input-path 双端数据的路径 |
3. cutadapt插件区分样本,并去除barcode序列
qiime cutadapt demux-paired \ --i-seqs multiplexed-seqs.qza \ --m-forward-barcodes-file sample-metadata.tsv \ --m-forward-barcodes-column forward-barcodes \ --m-reverse-barcodes-file sample-metadata.tsv \ --m-reverse-barcodes-column reverse-barcodes \ --o-per-sample-sequences per_sample_sequences.qza \ --o-untrimmed-sequences untrimmed_sequences.qza | per_sample_sequences.qza 这个文件是拆分好的数据,并且已经去掉了barcode序列。 |
4. 去除引物
qiime cutadapt trim-paired \ --i-demultiplexed-sequences demux.qza \ --p-front-f CCTACGGGNGGCWGCAG \ --p-front-r ADAPTER2SEQUENCE \ --o-trimmed-sequences trimmed-seqs.qza | --p-front-f指定正向引物, --p-front-r指定反向引物, 【注意】不要用--p-adapter-r或者--p-adapter-f参数,它们匹配的是3’末端的序列。 |
(三)EMP未区分样本、带质量信息的单端/双端测序数据
EMP类型是未区分样本、带质量信息的测序数据,需要先barcode拆分。拆分之后,直接后续去除引物,序列质控和生成特征序列和特征表。
【备注】
拆分样本之前,原始序列文件中的序列已经不带barcodes,所以拆分样本之后,也不带barcodes。
详见:《QIIME 2教程之数据导入》 (一)采用地球微生组计划(EMP)标准方法产生的FASTQ格式数据(科学网—QIIME 2教程之数据导入(importing data) - 刘树青的博文 (sciencenet.cn))
【参考】
adapter | 接头,为一段已知的短核苷酸序列,用于链接未知的DNA fragment。 adapter不是一段特定的序列,index+引物+P7/P5也就是由DNA fragment增变为最后待测序列,在两端增加的序列,总称为adapter。 |
index或barcode | 几个碱基组成的寡核苷酸链,用于在混合测序时,区分不同样本 |
insert | DNA fragment,位于两个adapter之间 |
Index 序列 | 可根据fastq序列中的信息获取,一般长度为6nt。 @HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT fastq的格式信息不再赘述,第一行最末的 CGATGT 即本次测序所使用的index。 |
如何利用qiime2对barcode信息拆分数据 - 开发技术 - 亿速云 (yisu.com)
2018-04-17宏基因组实战qiime2-201802(三)去除引物和Barcode - 简书 (jianshu.com)
技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(中) (360doc.com)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-6 02:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社