woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

USEARCH11命令大全,200+命令中文简介,快速查找需要功能

已有 8716 次阅读 2018-8-2 22:36 |个人分类:软件|系统分类:科研笔记

[TOC]

image

USEARCH是继Mothur、QIIME后的第三大流行扩增子分析流程,目前引用7350次。由Robert Edgar大神独立编写。官方网址:http://www.drive5.com/usearch/

详细介绍,请参阅

由于它有近200个命令和功能,对于新手在帮助文档中查找自己想要的功能也是非常困难的。特翻译此文,方便同行快速找到自己需要的功能,高效解决分析困难,专注科学问题。

对于具体命令使用存在困难,可在如下命令主页,查看单个命令的详细帮助页。

http://www.drive5.com/usearch/manual/cmds_all.html

命令按功能类别分为以下16大类,部分命令可以重复出现在不同类别中,如下翻译与上方英文页面一致。更新时间为2018年8月2日。

序列比对

Sequence alignment commands

命令功能简介
allpairs_global全局两两所有组合比较-全长匹配
allpairs_local本地两两比较-部分匹配即可,类似blast
pairs_global全局成对比较,即1vs2,3vs4
pairs_local本地成对比较,即1vs2,3vs4

嵌合体检测和过滤

Chimera detection and filtering

命令功能简介
annot基于数据库注释序列
uchime2_ref使用UCHIME2算法基于数据库去除嵌合体序列
uchime3_denovo使用UCHIME3算法基于OTU集合自身(de novo)去除嵌合体序列
unoise3扩增子去除噪音序列(低频扩增和测序错误等),获得精确的序列变异,非聚类法获得较真实代表序列的新算法

序列、树和基于图形的聚类

Sequence, tree and graph-based clustering

命令功能简介
closed_ref生成有参OTU表
cluster_aggd使用聚集法生成聚类距离矩阵
cluster_edges查找图中可连接的元素
cluster_fastUCLUST算法聚类
cluster_otusUPARSE算法聚类
cluster_smallmemUCLUST算法小内存模式聚类,适合低配电脑
cluster_tree基于距离阈值和树构建簇

距离矩阵

Distance matrices

命令功能简介
calc_distmx计算稀疏的距离矩阵
calc_lcr_probs基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
distmx_split_identity拆分距离矩阵为测试和训练集用于CVI
tree2distmx基于树计算距离矩阵

多样性分析

Commands for diversity analysis

命令功能简介
alpha_div基于OTU表计算Alpha多样性
alpha_div_rare采用稀疏方法计算Alpha多样性累得丰富度曲线
alpha_div_sig统计alpha多样性组间差异
beta_div基于OTU表计算beta多样性矩阵

fastq格式文件处理

Commands for reads in FASTQ format

命令功能简介
fastq_chars质量评估,报告质量值Q的分布频率
fastq_eestats报告每个碱基位置的质量值
fastq_eestats2报告不同长度reads的数量
fastq_filter按错误率或其它阈值对序列进行质量控制
fastq_join直接到双端序列按行连接为单个文件
fastq_mergepairs合并双端序列,需要双端序列末端有重叠,否则抛弃
fastq_sra_splitpairs拆分SRA格式为双端双文件格式

Fasta和fastq文件处理格式

Commands for sequences in FASTx format (FASTA and FASTQ)

命令功能简介
fasta_explode将去冗余的fasta序列按序列名中size=N进行去唯一化,还原为原始冗余状态
fasta_stripgaps移除fasta文件中的空白N序列
fastx2qiime转换usearch格式为qiime格式
fastx_demux拆样,按barcode序列将序列按样品名重命名(demultiplex)
fastx_findorfs鉴定核酸中的ORF,功能基因
fastx_get_sample_names提取样品名
fastx_getlabels提取序列标签
fastx_getseq提取某个序列名对应的序列
fastx_getseqs提取一组序列名对应的序列
fastx_getsubseq按序列标签、起始、终止提取序列
fastx_info汇报序列的摘要报告
fastx_learn估计扩增序列的错误率
fastx_mask屏蔽低复杂序列
fastx_relabel按样本名重命名序列
fastx_revcomp序列取反向互补
fastx_split文件拆分为多个小文件
fastx_strip_annots移除序列名中usearch格式的注释信息部分
fastx_subsample提取序列的随机子集,相当于序列抽样
fastx_syncpairs对应双端序列中的序列顺序,适合双端无法对应时使用
fastx_trim_primer移除序列中的引物序列
fastx_truncate去除序列左、右的部分,如barcode、引物
fastx_uniques序列去冗余 (dereplicate)
fastx_uniques_persample鉴定单样品中的非冗余序列
filter_lowc过滤低复杂序列
filter_phix过滤PhiX序列
sortbylength按序列长度降序排序
sortbysize按序列丰度size=N降序排列

机器学习和鉴定有用OTUs

Machine learning and finding informative OTUs

命令功能简介
forest_classify随机森林分类
forest_train训练集建立随机森林模型
otutab_core鉴定OTU表中的核心OTUs
otutab_forest_classifyOTU表中样品的随机森林分类
otutab_forest_train基于OTU表的随机森林训练
otutab_select鉴定有用OTUs (predictive of metadata)

其它命令

Miscellaneous commands

命令功能简介
search_16s在染色体或叠连群上鉴定16S序列
udb2bitvec建立16S数据库索引,用于search_16s

OTU分析和去噪

Commands for OTU analysis and denoising

命令功能简介
alpha_div计算OTU表的17种Alpha多样性指数,输入OTU表需要抽平才合理
alpha_div_rare计算Alpha多样性稀释曲线原始数据,可用Excel或R绘图
alpha_div_sig按实验设计分组统计Alpha多样性组间显著性
annot注释OTUs,如已知(人工重组模拟群落、参考数据库),嵌合体等
beta_div计算近10种beta多样性距离矩阵
closed_ref基于参考数据库构建OTU表
cluster_aggd使用凝聚法聚类距离矩阵
cluster_otus采用UPARSE算法聚类序列
fastx_learn估计扩增子序列中的错误率
filter_lowc过滤低复杂度序列
filter_phix过滤PhiX序列
nbc_tax使用RDP分类算法物种分类
otutab生成OTU表
otutab2biom转换OTU表为biom(json)格式
otutab_binary转换OTU表为0/1(有/无)二元格式
otutab_core鉴定微生物组核心OTUs
otutab_counts2freqs转换原始counts值为频率(相对丰度)
otutab_forest_classify使用随机森林分类
otutab_forest_train基于OTU表进行随机森林学习建决策树
otutab_group按分组进行合并样品,多样品数值求合为一组
otutab_merge合并两个或多个OTU表
otutab_octave八度图展示OTU丰度分布
otutab_otu_subset提取OTUs表子集
otutab_otus提取OTUs表中OTUs的名字
otutab_rare抽样OTUs数据量至相同
otutab_sample_subset提取OTU表中部分样品
otutab_samples提取OTU表中样品名
otutab_select鉴定有用的OTUs(分组预测)
otutab_sortotusOTU表按丰度降序排列
otutab_statsOTU表基本信息统计,如样本、OTU数量,样本测序量分位数等
otutab_trim按OTU表counts, OTU和样品数据量等条件过滤
otutab_xtalk估计和过滤OTU表中的cross-talk
qiimemap2otutab转换QIIME比对文件为OTU表
search_oligodb检索匹配短序列,如引物
search_pcr电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2检索一对引物
search_phix检索PhiX
sinaps预测性状
sintax预测物种分类
sintax_summary按分类级汇总OTU表
tabbed2otutab转换比对文件(read+OTU)为OTU表
uchime2_ref基于参考数据库和UCHIME2算法检测嵌合体
uchime3_denovo使用UCHIME3算法和OTU自身序列集检测嵌合体
unbias校正OTU表中丰度偏差
unoise3扩增子序列去噪,获得精度序列变异的特征序列(Features)
uparse_ref分类来自人工重组群体的序列,类似于closed reference

OTU表命令

OTU table commands

命令功能简介
alpha_div基于OTU表计算Alpha多样性
alpha_div_rare采用稀疏方法计算Alpha多样性丰富度曲线原始数值
alpha_div_sig统计alpha多样性组间差异是否显著
beta_div基于OTU表计算beta多样性矩阵
otutab创建OTU表
otutab2biom转换OTU表为biom(json)格式
otutab_binary转换OTU表为0/1二元格式
otutab_core鉴定核心微生物组OTUs
otutab_counts2freqs转换counts值为频率(相对丰度)
otutab_forest_classify使用随机森林分类
otutab_forest_train基于OTU表进行随机森林学习建决策树
otutab_group按分组进行样品求和合并
otutab_merge合并两个或多个OTU表
otutab_octave八度图展示OTU丰度分布
otutab_otu_subset提取OTU表子集
otutab_otus提取OTU表中OTU的名字
otutab_samples提取OTU表中样品名
otutab_rare抽样OTU数据量相同
otutab_sample_subset提取OTU表中部分样品
otutab_select鉴定有信息的OTUs(分组预测)
otutab_sortotusOTU表按降序排列
otutab_statsOTU表基本信息统计
otutab_trim按OTU表count值, OTU和样品等条件过滤
otutab_xtalk估计和过滤OTU表中的cross-talk
qiimemap2otutab转换QIIME比对文件为OTU table
tabbed2otutab转换比对文件(read+OTU)为OTU表
unbias校正OTU表中丰度偏差

二代测序序列处理

Next-generation reads

命令功能简介
fastq_chars质量评估,报告质量值Q的质量分布频率
fastq_eestats报告每个碱基位置的质量值
fastq_eestats2报告不同长度reads的数量
fastq_filter按fastq质量值的错误率或其它阈值对序列进行质量控制
fastq_join直接到双端序列按行连接为单个文件
fastq_mergepairs合并双端序列,需要双端末端有重叠,否则抛弃
fastq_sra_splitpairs拆分SRA格式为双端双文件格式
fastx2qiime转换usearch格式为qiime格式
fastx_demux拆样,按barcode序列为分配序列的样品来源(demultiplex)
fastx_findorfs鉴定核酸中的ORF,功能基因
fastx_get_sample_names提取样品名
fastx_getlabels提取序列标签
fastx_getseq提取某个序列名对应的序列
fastx_getseqs提取一组序列名对应的序列
fastx_getsubseq按序列标签、起始、终止提取序列
fastx_info汇报序列的摘要报告
fastx_learn估计扩增序列的错误率
fastx_subsample提取序列的随机子集,相当于序列抽样
fastx_syncpairs对应双端序列的顺序
fastx_trim_primer移除序列中的引物序列
fastx_truncate去除序列左、右的部分,如barcode、引物
filter_lowc过滤低复杂序列
filter_phix过滤PhiX序列
search_oligodb检索匹配短序列,如引物
search_pcr电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2检索一对引物
search_phix检索PhiX

序列和数据库检索

Sequence database search

命令功能简介
makeudb_sintax制作物种注释数据库UDB格式索引,可节约计算时间
makeudb_ublast创建ublast数据库索引
makeudb_usearch创建usearch_global数据库索引
search_exact检索完全相同的序列
search_global全局比对检索数据库,不使用试探法加速
search_local局部、本地比对检索数据库,不使用试探法加速
search_oligodb检索匹配短序列,如引物
search_pcr电子PCR,在数据库中检索成对引物(可以为多对引物)
search_pcr2检索一对引物
search_peptidedb检索匹配短肽序列
search_phix检索PhiX
ublast本地比对方法快速在数据库在检索,比BLAST更快(much faster than BLAST)
usearch_global全局比对方法快速在数据库中检索
usearch_local本地比对方法快速在数据库中检索,类似blast

物种命令

Taxonomy commands

命令功能简介
calc_lcr_probs基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率
makeudb_sintax制作物种注释数据库UDB格式索引,可节约计算时间
nbc_tax使用RDP分类算法物种分类
sintax预测物种分类
sintax_summary按分类级汇总OTU表,常用门、纲、目、科、属、种

树命令

Tree commands

命令功能简介
calc_distmx计算稀疏的距离矩阵
cluster_tree基于距离阈值和树构建簇
subtree提取指定结点下的子树
tree2distmx基于树计算矩阵矩阵
tree_cvt转换树文件格式,制表分隔与Newick格式相互转换
tree_subset按叶子集提取树

标签与注释

Labels and annotations

命令功能简介
fastx2qiime转换usearch格式为qiime格式
fastx_getlabels提取序列标签
fastx_relabel按样本名重命名序列
fastx_strip_annots移除序列名中usearch格式的注释信息
otutab_otus提取OTUs表中OTU名字
otutab_samples提取OTU表中样品名

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1800+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1127284.html

上一篇:USEARCH11发布,新功能简介
下一篇:vsearch2.8.1使用和命令简介——中文帮助文档-免费64位版usearch
收藏 IP: 101.64.179.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 21:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部