||
1. 简介及安装
NGS raw reads的两端通常会存在一些质量值较低的碱基,有时甚至整条read大半部分测序质量都很低。fastq格式如下,其质量值可参考https://en.wikipedia.org/wiki/FASTQ_format
https://www.drive5.com/usearch/manual/fastq_files.html
因此,通常会去掉这些reads中的低质量碱基,或者去掉整条reads,但是read都是成双出现的,所以一旦去掉就是R1和R2对应的read都是去掉,这个过程称为reads trim。trimmomatic是一款引用很高的trim工具,它不是简单的切掉两端几bp,而是构建一个滑窗,窗内质量值低于某个值时去掉滑窗内的碱基。
trimmomatic从官网下载二进制java包(.jar格式),可直接使用。同时还提供了详细的说明文档
http://www.usadellab.org/cms/?page=trimmomatic
注意:随jar包下载的还有一个adapter目录,它非常重要!
2. 运行及参数说明
2.1 运行
trimmomatics的参数可参考文章:
Girdhar K, Hoffman G E, Bendl J, et al. Chromatin domain alterations linked to 3D genome organization in a large cohort of schizophrenia and bipolar disorder brains[J]. Nature neuroscience, 2022, 25(4): 474-483.
具体运行如下:
java -jar trimmomatic-0.39.jar -summary trim_stat.txt -validatePairs input_R1.fastq.gz input_R2.fastq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE, LEADING:3, TRAILING:3, SLIDINGWINDOW:4:15 and MINLEN:36 -baseout output.fastq.gz
2.2 参数说明
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE
TruSeq3-PE.fa是adapter文件,2表示最大mismatch数,30表示palindrome方法的匹配阈值(具体的图解可以参考trimmomatic官网的manual,通常使用默认即可),10表示simple方法的匹配阈值
需要注意的是如果采用illumina测序平台,一般都会用TruSeq3-PE-2.fa测序接头,这个文件在trimmomatic jar包下载时同时下载,TruSeq3-PE-2.fa内容如下:
如果是采用BGI测序平台,需采用BGI-SEQ-PE.fa,其内容如下:
BGI adapter信息也可以参考BGI官网提供的Oligos and primers for BGISEQ/DNBSEQ/MGISEQ library:
https://en.mgitech.cn/Download/download_file/id/71
另外,BGI adapter信息在以下文章也有:
Kim H M, Jeon S, Chung O, et al. Comparative analysis of 7 short-read sequencing platforms using the Korean Reference Genome: MGI and Illumina sequencing benchmark for whole-genome sequencing[J]. GigaScience, 2021, 10(3): giab014.
LEADING:3表示切掉reads 5’端(the start of read)质量低于3的碱基或N
TRAILING:3 #表示切掉reads 3’端(the end of read)质量低于3的碱基或N
SLIDINGWINDOW:4:15 表示以4个碱基作为窗口,窗口一个碱基一个碱基往后移,如果窗口内碱基的平均质量小于15,后面的都切掉
MINLEN:36 以上步骤处理后,如果reads的长度小于36,这条reads也会被排除
此外还有:
CROP:切reads到一个指定长度(从reads 3’端切)
HEADCROP:从reads 5’端切除指定长度的序列
TOPHRED33:将质量得分转化为Phred-33的编码方式
TOPHRED64:将质量得分转化为Phred-64的编码方式
注:现在使用较多是Phred-33的编码方式,Phred-64是旧版本
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-13 23:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社