||
本文“宏基因组”公众号原创。
作者:舟行天下
编辑:metagenome
前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简介。USEARCH软件在扩增子测序分析上堪称神器!该软件依靠大神Robert Edgar开发的UPARSE,UNOISE等算法,在序列搜索、聚类、去重、去嵌合体等步骤的准确度以及效率上显著高于老牌的mothur,QIIME等软件,受到全世界研究者的喜爱,目前谷歌学术显示其已经被引用了6456次!!
由于USEARCH这个软件的安装以及使用都非常方便,不像QIIME软件一样,“让无数生信人尽折腰”。除了高通量数据处理外,USEARCH还提供了α和β(包括unifrac等)多样性分析,可以说功能非常全面!
进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人样本的数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。
由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢?
小编在这里就要给大家发一个福利了,让你能无差别的使USEARCH的绝大部分功能,而且还不用收费。那就是用与USEARCH非常类似的VSEARCH软件替代USEARCH使用,不管你有多少样品,有多大的数据量,都能让你无忧无虑的使用和USEARCH几乎一模一样的功能进行数据分析。
VSEARCH是一个开源免费的64位,无内存限制的扩增子数据处理分析软件。该软件是专门针对Edgar大神开发的 USEARCH 软件而设计开发的(Rognes,2016)。
VSEARCH作者在文章前言中就提到由于Edgar大神开发的USEARCH不开源,并且没有给出其软件中具体算法的详细描述。最主要的原因还有USEARCH免费的版本只有32位版本在使用时有4GB的使用内存限制。这帮生信大佬们不想花钱买USEARCH,所以他们直接自己开发了一个与USEARCH功能类似的软件VSEARCH供大家使用。根据谷歌学术的统计数据,该软件从2016年发表到现在也已经被引用了218次。
从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。
从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。
从FIG.3可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。
VSEARCH主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。
在最新发布的VSEARCH版本中,作者也针对USEARCH10中的UNOISE去噪方法(详细介绍),在VSEARCH中加入了UNOISE方法用于聚类分析。
VSEARCH软件目前已经更新到了2.7.1版本,
其Windows的安装版本链接是:Win Vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-win-x86_64.zip;
MAC版本的下载链接是:MAC_vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-macos-x86_64.tar.gz;
Linux版本的下载链接是Linux_vsearch https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz
文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。
在linux中我们直接执行以下命令就可以直接安装了
##如何安装VSEARCH
wget https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz
tar xzf v2.7.1.tar.gz
cd vsearch-2.7.1
./autogen.sh
./configure
make
make install # as root or sudo make install
要想灵活的玩转VSEARCH软件,那我们首先要知道整个数据的分析流程是什么样的,通常我们拿到扩增子测序的数据会进行:序列双端合并;去除两端接头,Fastqc质量检测;序列去重复;嵌合体检测;OTU聚类;分类信息注释等步骤。而USEARCH在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的VSEARCH步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。
下面我将教大家如何从测序的原始序列拿到一个OTU矩阵表格
# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results
# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa 16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件
#Merge paired reads and label samples
# 测序数据解压
gunzip seq/*
# 依照实验设计批处理并合并
for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \
--fastqout temp/${i}.merged.fq --relabel ${i}.
done
# 合并所有样品至同一文件
cat temp/*.merged.fq > temp/all.fq
ls -l temp/all.fq
# 3. 切除引物与质控 Cut primers and quality filter
# 请按实际修改,如Cut barcode 10bp + V5 19bp in left and V7 18bp in right
time vsearch --fastx_filter temp/all.fq \
--fastq_stripleft 29 --fastq_stripright 18 \
--fastqout temp/stripped.fq # 34s
# 质量控制fastq filter, keep reads error rates less than 1%
time vsearch --fastx_filter temp/stripped.fq \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa # 30s
#761431 sequences kept (of which 0 truncated), 5627 sequences discarded.
# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
time vsearch --derep_fulllength temp/filtered.fa \
--sizeout --minuniquesize 8 \
--output temp/uniques.fa # 4s
## 此处我们用基于reference的去嵌合,下载rdp_gold.fa作
#为reference数据库
#wget http://drive5.com/uchime/rdp_gold.fa
# 聚类方式生成OTU
time vsearch --cluster_fast temp/uniques.fa \
--id 0.97 --centroids temp/otus.fa \
--relabel OTU_ # 7s Clusters: 1244 --uc temp/clusters.uc
# 细菌可用Usearch作者整理的RDP Gold数据库去除嵌合体
# wget http://drive5.com/uchime/rdp_gold.fa
time vsearch --uchime_ref temp/otus.fa \
--db db/rdp_gold.fa \
--nonchimeras result/otus.fa
# Create OTUs table
time vsearch --usearch_global temp/filtered.fa \
--db result/otus.fa \
--id 0.97 \
--otutabout result/otutab.txt --threads 4
# 物种注释
#gunzip rdp_16s_v16.fa
# vsearch --usearch_global result/otus.fa --db db/rdp_16s_v16.fa --biomout out_tax.txt --id 0.97
以上命令都是小编悉心整理并测试的全套高通量下机数据处理流程命令,可以说是花钱都买不到的绝对干货!
看了这套命令你也能在你自己的电脑上来一套扩增子数据处理的全部流程了,让你再不用去看测序公司的眼色,同时欢迎大家多多分享,共同进步!
文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 21:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社