luria的个人博客分享 http://blog.sciencenet.cn/u/luria

博文

trimmomatic使用方法

已有 1619 次阅读 2024-6-25 16:42 |个人分类:BioIT|系统分类:科研笔记

1. 简介及安装

NGS raw reads的两端通常会存在一些质量值较低的碱基,有时甚至整条read大半部分测序质量都很低。fastq格式如下,其质量值可参考https://en.wikipedia.org/wiki/FASTQ_format

https://www.drive5.com/usearch/manual/fastq_files.html

 

因此,通常会去掉这些reads中的低质量碱基,或者去掉整条reads,但是read都是成双出现的,所以一旦去掉就是R1R2对应的read都是去掉,这个过程称为reads trimtrimmomatic是一款引用很高的trim工具,它不是简单的切掉两端几bp,而是构建一个滑窗,窗内质量值低于某个值时去掉滑窗内的碱基。

trimmomatic从官网下载二进制java(.jar格式),可直接使用。同时还提供了详细的说明文档

http://www.usadellab.org/cms/?page=trimmomatic

注意:随jar包下载的还有一个adapter目录,它非常重要!

 

2. 运行及参数说明

2.1 运行

trimmomatics的参数可参考文章:

Girdhar K, Hoffman G E, Bendl J, et al. Chromatin domain alterations linked to 3D genome organization in a large cohort of schizophrenia and bipolar disorder brains[J]. Nature neuroscience, 2022, 25(4): 474-483.

 

具体运行如下:

java -jar trimmomatic-0.39.jar -summary trim_stat.txt -validatePairs input_R1.fastq.gz input_R2.fastq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE, LEADING:3, TRAILING:3, SLIDINGWINDOW:4:15 and MINLEN:36 -baseout output.fastq.gz

2.2 参数说明

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:8:TRUE

TruSeq3-PE.faadapter文件,2表示最大mismatch数,30表示palindrome方法的匹配阈值(具体的图解可以参考trimmomatic官网的manual,通常使用默认即可)10表示simple方法的匹配阈值

 

需要注意的是如果采用illumina测序平台,一般都会用TruSeq3-PE-2.fa测序接头,这个文件在trimmomatic jar包下载时同时下载,TruSeq3-PE-2.fa内容如下:

如果是采用BGI测序平台,需采用BGI-SEQ-PE.fa,其内容如下:

BGI adapter信息也可以参考BGI官网提供的Oligos and primers for BGISEQ/DNBSEQ/MGISEQ library:

https://en.mgitech.cn/Download/download_file/id/71

另外,BGI adapter信息在以下文章也有:

Kim H M, Jeon S, Chung O, et al. Comparative analysis of 7 short-read sequencing platforms using the Korean Reference Genome: MGI and Illumina sequencing benchmark for whole-genome sequencing[J]. GigaScience, 2021, 10(3): giab014.

 

LEADING:3表示切掉reads 5’端(the start of read)质量低于3的碱基或N

TRAILING:3 #表示切掉reads 3’端(the end of read)质量低于3的碱基或N

SLIDINGWINDOW:4:15 表示以4个碱基作为窗口,窗口一个碱基一个碱基往后移,如果窗口内碱基的平均质量小于15,后面的都切掉

MINLEN:36 以上步骤处理后,如果reads的长度小于36,这条reads也会被排除

 

此外还有:

CROP:切reads到一个指定长度(reads 3’端切)

HEADCROP:从reads 5’端切除指定长度的序列

TOPHRED33:将质量得分转化为Phred-33的编码方式

TOPHRED64:将质量得分转化为Phred-64的编码方式

注:现在使用较多是Phred-33的编码方式,Phred-64是旧版本

 



https://blog.sciencenet.cn/blog-2970729-1439691.html

上一篇:R boxplot显著性绘图包ggpubr的使用注意点(一)
收藏 IP: 223.76.222.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-8 20:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部