|
在做扩增子测序时,测序公司提供的原始fastq格式序列可能包含引物甚至barcode等多余碱基,结构如下所示:
[barcode等多余碱基][前引物][目的序列][后引物][多余碱基]
有些测序公司可能会提供去除了barcode甚至引物的fastq格式序列,然而如果使用的去除方法不合适(例如直接按碱基数截去序列两端的若干碱基),可能部分序列的引物或barcode去除不完整。由此可能导致划分OTU/ASV时,多出来一些错误的OTU/ASV。更有甚者,我遇到过某些公司提供的原始序列出现同一条序列出现2次以上的情况 (这些冗余序列的编号和内容完全一致),以及一条序列包含2对引物的情况,尽管这种错误所占比例较低。
为此,我编写了一个Perl脚本trim_primer_in_fq.pl,用于检测fastq格式序列中的引物,在引物外侧的多余碱基(例如barcode)将被截去,可以选择去除引物,同时也可以去除冗余序列和含有多对引物的错误序列。
这个脚本需要使用命令行执行,例如Windows系统的命令提示符(CMD)、Linux和macOS系统的终端。运行脚本时,如果不提供任何参数,会显示脚本的帮助信息(例如全部参数的说明)。当然,电脑上得安装有perl语言,可以从网上下载Strawberry Perl或ActivePerl安装。该脚本用法如下:
perl trim_primer_in_fq.pl -i [fastq文件] -l [引物列表文件] -d [输出目录] <可选参数>
(1) 必选参数:
-i: 建议使用双端拼接后的序列,可以是单个文件,也可以是若干文件,例如:-i "fq/*.fastq",表示fq目录下的所有扩展名为fastq的文件,使用通配符*时请务必使用英文引号。
-d: 输出目录,脚本会新建这个目录,将结果输出到该目录内,不要和输入目录相同!
-l: 引物列表文件,包含两行,依次是前引物、后引物序列及名称(请使用Tab制表符分隔),支持简并碱基,例如:
GMRCCIGGIGTIGGYTGYGC nifH-2F
TTGTTGGCIGCRTASAKIGCCAT nifH-3R
(2) 可选参数(可以缺省,取默认值):
-r: 去除多余碱基时,是否去除引物?0 - 保留引物,1 - 去除引物,默认1。
-s: 如果一条序列只包含前后引物中的1条,是否保留该序列?0 - 否,1 - 是,默认0。
-c: 当检测到任一引物多次在一条序列中出现时,是否去除该序列?0 - 否,1 - 是,默认1。
建议用这个脚本处理双端拼接后的fastq格式序列 (不宜用于处理单端序列),输出的fastq文件可进一步做序列质控等分析。此外会输出日志文件,汇总每个文件的引物检测结果;如果发现某个fastq文件包括冗余序列,则输出冗余序列编号。
此外,再分享两个与序列分析有关的Perl脚本:
1. rename_seqid_for_usearch.pl
该脚本可将fasta/fastq格式序列的编号重命名为"文件名_编号;barcodelabel=文件名;"。 重命名后,来自不同样本的序列可合并到一个文件中进行后续分析(例如OTU聚类),Qiime和Usearch软件可识别序列的样本来源,从而生成OTU/ASV表。
例如,文件"S1.fasta"的第一条序列重命名为"S1_1;barcodelabel=S1;",第二条序列重命名为"S1_2;barcodelabel=S1;"。
用法如下:
perl rename_seqid_for_usearch.pl -i [输入文件] -f [输入文件格式] <可选参数>
-i: 如有多个文件,可以使用通配符*(例如"*.fq"),或多个文件之间以英文分号隔开(例如"1.fq;2.fq;3.fq"),请务必使用英文引号!
-f: 输入文件的格式,0 - fasta,1 - fastq
2. fastq2fasta.pl
该脚本用于将fastq格式序列转为fasta格式。用法如下:
perl fastq2fasta.pl [输入文件]
以上自编Perl脚本可以从GitHub下载:https://github.com/PeterRui/perl4amplicon
如果GitHub打不开,也可以从这篇文章的补充材料下载Data Sheet 2.zip:
Rui J, Zhao Y, Cong N, Wang F, Li C, Liu X, Hu J, Ling N and Jing X (2023) Elevational distribution and seasonal dynamics of alpine soil prokaryotic communities. Front. Microbiol. 14:1280011. doi: 10.3389/fmicb.2023.1280011
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-27 03:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社