|||
https://forum.qiime2.org/t/qiime2-chinese-manual/838
下载数据
创建文件夹emp-single-end-sequences:
mkdir emp-single-end-sequences
fastq格式的序列文件:
wget -O "emp-single-end-sequences/sequences.fastq.gz" "https://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"
barcode sequences:
wget -O "emp-single-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"
生成映射文件并检查映射文件的正确性
映射文件的要求见http://qiime.org/documentation/file_formats.html#qiime-parameters
此处给出两个例子,一个正确的,map.tsv,一个错误的,map-bad.tsv
使用validate_mapping_file.py检查映射文件map.tsv的正确性,输出日志文件,html文件和corrected_mapping.txt文件。
validate_mapping_file.py -o ./vmf-map -m ./map.tsv
此时给出信息:"No errors or warnings were found in mapping file." 检测的结果在文件夹./vmf-map中。
使用validate_mapping_file.py检查映射文件map-bad.tsv的正确性,
validate_mapping_file.py -o ./vmf-map-bad -m ./map-bad.tsv
此时给出信息:"Errors and/or warnings detected in mapping file. Please check the log and html file for details." 可以查看产生的HTML摘要以找出存在的错误。然后在电子表格程序或文本编辑器中修复这些问题,重新运行validate_mapping_file.py检查更新后的映射文件。
质量过滤序列
使用split_libraries_fastq.py 对序列进行质量过滤,一般来说,序列和条形码有单独的fastq文件,
split_libraries_fastq.py -o slout / -i forward_reads.fastq.gz -b barcodes.fastq.gz -m map.tsv
OTU-picking
注意若是在NCBI等网站上下载处理过的序列,直接在此处开始即可
有三种策略,为pick_closed_reference_otus.py,pick_open_reference_otus.py,pick_de_novo_otus.py。此处以pick_open_reference_otus.py为例
pick_open_reference_otus.py -o otus / -i slout / seqs.fna -p ../uc_fast_params.txt
注意,该命令采用上一步中生成的文件seqs.fna。我们还为该命令指定了一些参数,这是该工作流程的内部。
我们从这个命令中获得的主要输出是OTU table,或者每个样品中观察到的每个操作分类单位(OTU)的次数。QIIME使用基因组学标准联盟生物观察矩阵标准(BIOM)格式来表示OTU表格。可以在这里找到有关BIOM格式的更多信息,以及将这些文件转换为制表符分隔文本的信息,这些文本可以在此处电子表格程序中查看。这个命令生成几个OTU表。我们通常使用./otus/otu_table_mc2_w_tax_no_pynast_failures.biom。它有单个OTU(或总数为1的OTU),以及其代表序列不能与PyNAST对齐的OTU。它还包含每个OTU的分类分配作为观测元数据。pick_open_reference_otus.py命令还产生系统发育树,包含树的文件是./otus/rep_set.tre,并且是./otus/otu_table_mc2_w_tax_no_pynast_failures.biom下游系统发育多样性计算中应该使用的文件。树以广泛使用的newick格式存储。
(未完)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社