|||
宏基因组分析的第一步是质量控制,主要包括adapter和低质量序列的修剪与去除。
工具:Trimmomatic
网址:http://www.usadellab.org/cms/index.php?page=trimmomatic
引用:Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: Aflexible trimmer for Illumina Sequence Data. Bioinformatics, btu170.
1.1简介:
Trimmomatic用于快速对fastq文件进行低质量序列去除和ILLUMINA数据接头去除,包含双端测序和单端测序两种模式,不仅可以直接处理fastq文件也可以直接处理压缩包中的fastq序列文件。
1.2 安装
trimmomatic是一个java程序,http://www.usadellab.org/cms/index.php?page=trimmomatic直接下载后解压缩即可。
1.3使用方法(对于Pair-end测序数据)
java -jar /home/sam/software/Trimmomatic-0.36/trimmomatic-0.36.jarPE input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gzoutput_forward_unpaired.fq.gz output_reverse_paired.fq.gzoutput_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
java -jartrimmomatic-0.35.jar 调用trimmomatic
PE Pair-end,双端测序数据
input_forward.fq.gz 正向序列
input_reverse.fq.gz 反向序列
output_forward_paired.fq.gz 修剪后的正向序列(后续分析用)
output_forward_unpaired.fq.gz 未匹配的正向序列
output_reverse_paired.fq.gz 剪后的反向序列(后续分析用)
output_reverse_unpaired.fq.gz 未匹配的反向序列
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 去除adapter
LEADING:3 去除头部序列质量低于3的序列
TRAILING:3 去除尾部序列质量低于3的序列
SLIDINGWINDOW:4:15 用一个四碱基宽的滑动窗口(阅读框)扫描序列,窗口中的碱基平均质量低于15则剪除该窗口中的碱基
MINLEN:36 将reads长度小于36个碱基的序列去除
这个版本已经可以自动检测phred+33和phred+64,关于phred的问题参见
http://blog.sciencenet.cn/blog-630246-813262.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 12:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社