peterrjp的个人博客分享 http://blog.sciencenet.cn/u/peterrjp

博文

扩增子测序序列的引物去除

已有 924 次阅读 2023-9-28 23:07 |系统分类:科研笔记

在做扩增子测序时,测序公司提供的原始fastq格式序列可能包含引物甚至barcode等多余碱基,结构如下所示:

[barcode等多余碱基][前引物][目的序列][后引物][多余碱基]

有些测序公司可能会提供去除了barcode甚至引物的fastq格式序列,然而如果使用的去除方法不合适(例如直接按碱基数截去序列两端的若干碱基),可能部分序列的引物或barcode去除不完整。由此可能导致划分OTU/ASV时,多出来一些错误的OTU/ASV。更有甚者,我遇到过某些公司提供的原始序列出现同一条序列出现2次以上的情况 (这些冗余序列的编号和内容完全一致),以及一条序列包含2对引物的情况,尽管这种错误所占比例较低。

为此,我编写了一个Perl脚本trim_primer_in_fq.pl用于检测fastq格式序列中的引物,在引物外侧的多余碱基(例如barcode)将被截去,可以选择去除引物,同时也可以去除冗余序列和含有多对引物的错误序列

这个脚本需要使用命令行执行,例如Windows系统的命令提示符(CMD)、Linux和macOS系统的终端。运行脚本时,如果不提供任何参数,会显示脚本的帮助信息(例如全部参数的说明)。当然,电脑上得安装有perl语言,可以从网上下载Strawberry Perl或ActivePerl安装。该脚本用法如下:

perl trim_primer_in_fq.pl -i [fastq文件] -l [引物列表文件] -d [输出目录] <可选参数>

(1) 必选参数:

-i: 建议使用双端拼接后的序列,可以是单个文件,也可以是若干文件,例如:-i "fq/*.fastq",表示fq目录下的所有扩展名为fastq的文件,使用通配符*时请务必使用英文引号

-d: 输出目录,脚本会新建这个目录,将结果输出到该目录内,不要和输入目录相同!

-l: 引物列表文件,包含两行,依次是前引物、后引物序列及名称(请使用Tab制表符分隔),支持简并碱基,例如:

GMRCCIGGIGTIGGYTGYGC    nifH-2F

TTGTTGGCIGCRTASAKIGCCAT    nifH-3R


(2) 可选参数(可以缺省,取默认值):

-r: 去除多余碱基时,是否去除引物?0 - 保留引物,1 - 去除引物,默认1。

-s: 如果一条序列只包含前后引物中的1条,是否保留该序列?0 - 否,1 - 是,默认0。

-c: 当检测到任一引物多次在一条序列中出现时,是否去除该序列?0 - 否,1 - 是,默认1。


建议用这个脚本处理双端拼接后的fastq格式序列 (不宜用于处理单端序列),输出的fastq文件可进一步做序列质控等分析。此外会输出日志文件,汇总每个文件的引物检测结果;如果发现某个fastq文件包括冗余序列,则输出冗余序列编号。


此外,再分享两个与序列分析有关的Perl脚本:

1. rename_seqid_for_usearch.pl

该脚本可将fasta/fastq格式序列的编号重命名为"文件名_编号;barcodelabel=文件名;"。 重命名后,来自不同样本的序列可合并到一个文件中进行后续分析(例如OTU聚类),Qiime和Usearch软件可识别序列的样本来源,从而生成OTU/ASV表。

例如,文件"S1.fasta"的第一条序列重命名为"S1_1;barcodelabel=S1;",第二条序列重命名为"S1_2;barcodelabel=S1;"。

用法如下:

perl rename_seqid_for_usearch.pl -i [输入文件] -f [输入文件格式] <可选参数>

-i: 如有多个文件,可以使用通配符*(例如"*.fq"),或多个文件之间以英文分号隔开(例如"1.fq;2.fq;3.fq"),请务必使用英文引号!

-f: 输入文件的格式,0 - fasta,1 - fastq


2. fastq2fasta.pl

该脚本用于将fastq格式序列转为fasta格式。用法如下:

perl fastq2fasta.pl [输入文件]


以上自编Perl脚本可以从GitHub下载:https://github.com/PeterRui/perl4amplicon

如果GitHub打不开,也可以从这篇文章的补充材料下载Data Sheet 2.zip:

Rui J, Zhao Y, Cong N, Wang F, Li C, Liu X, Hu J, Ling N and Jing X (2023) Elevational distribution and seasonal dynamics of alpine soil prokaryotic communities. Front. Microbiol. 14:1280011. doi: 10.3389/fmicb.2023.1280011



https://blog.sciencenet.cn/blog-814524-1404177.html

上一篇:扩增子测序数据标准化——随机重抽样(Subsample)
收藏 IP: 210.26.119.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 03:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部