||
[TOC]
USEARCH是继Mothur、QIIME后的第三大流行扩增子分析流程,目前引用7350次。由Robert Edgar大神独立编写。官方网址:http://www.drive5.com/usearch/
详细介绍,请参阅
由于它有近200个命令和功能,对于新手在帮助文档中查找自己想要的功能也是非常困难的。特翻译此文,方便同行快速找到自己需要的功能,高效解决分析困难,专注科学问题。
对于具体命令使用存在困难,可在如下命令主页,查看单个命令的详细帮助页。
http://www.drive5.com/usearch/manual/cmds_all.html
命令按功能类别分为以下16大类,部分命令可以重复出现在不同类别中,如下翻译与上方英文页面一致。更新时间为2018年8月2日。
Sequence alignment commands
命令 | 功能简介 |
---|---|
allpairs_global | 全局两两所有组合比较-全长匹配 |
allpairs_local | 本地两两比较-部分匹配即可,类似blast |
pairs_global | 全局成对比较,即1vs2,3vs4 |
pairs_local | 本地成对比较,即1vs2,3vs4 |
Chimera detection and filtering
命令 | 功能简介 |
---|---|
annot | 基于数据库注释序列 |
uchime2_ref | 使用UCHIME2算法基于数据库去除嵌合体序列 |
uchime3_denovo | 使用UCHIME3算法基于OTU集合自身(de novo)去除嵌合体序列 |
unoise3 | 扩增子去除噪音序列(低频扩增和测序错误等),获得精确的序列变异,非聚类法获得较真实代表序列的新算法 |
Sequence, tree and graph-based clustering
命令 | 功能简介 |
---|---|
closed_ref | 生成有参OTU表 |
cluster_aggd | 使用聚集法生成聚类距离矩阵 |
cluster_edges | 查找图中可连接的元素 |
cluster_fast | UCLUST算法聚类 |
cluster_otus | UPARSE算法聚类 |
cluster_smallmem | UCLUST算法小内存模式聚类,适合低配电脑 |
cluster_tree | 基于距离阈值和树构建簇 |
Distance matrices
命令 | 功能简介 |
---|---|
calc_distmx | 计算稀疏的距离矩阵 |
calc_lcr_probs | 基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率 |
distmx_split_identity | 拆分距离矩阵为测试和训练集用于CVI |
tree2distmx | 基于树计算距离矩阵 |
Commands for diversity analysis
命令 | 功能简介 |
---|---|
alpha_div | 基于OTU表计算Alpha多样性 |
alpha_div_rare | 采用稀疏方法计算Alpha多样性累得丰富度曲线 |
alpha_div_sig | 统计alpha多样性组间差异 |
beta_div | 基于OTU表计算beta多样性矩阵 |
Commands for reads in FASTQ format
命令 | 功能简介 |
---|---|
fastq_chars | 质量评估,报告质量值Q的分布频率 |
fastq_eestats | 报告每个碱基位置的质量值 |
fastq_eestats2 | 报告不同长度reads的数量 |
fastq_filter | 按错误率或其它阈值对序列进行质量控制 |
fastq_join | 直接到双端序列按行连接为单个文件 |
fastq_mergepairs | 合并双端序列,需要双端序列末端有重叠,否则抛弃 |
fastq_sra_splitpairs | 拆分SRA格式为双端双文件格式 |
Commands for sequences in FASTx format (FASTA and FASTQ)
命令 | 功能简介 |
---|---|
fasta_explode | 将去冗余的fasta序列按序列名中size=N进行去唯一化,还原为原始冗余状态 |
fasta_stripgaps | 移除fasta文件中的空白N序列 |
fastx2qiime | 转换usearch格式为qiime格式 |
fastx_demux | 拆样,按barcode序列将序列按样品名重命名(demultiplex) |
fastx_findorfs | 鉴定核酸中的ORF,功能基因 |
fastx_get_sample_names | 提取样品名 |
fastx_getlabels | 提取序列标签 |
fastx_getseq | 提取某个序列名对应的序列 |
fastx_getseqs | 提取一组序列名对应的序列 |
fastx_getsubseq | 按序列标签、起始、终止提取序列 |
fastx_info | 汇报序列的摘要报告 |
fastx_learn | 估计扩增序列的错误率 |
fastx_mask | 屏蔽低复杂序列 |
fastx_relabel | 按样本名重命名序列 |
fastx_revcomp | 序列取反向互补 |
fastx_split | 文件拆分为多个小文件 |
fastx_strip_annots | 移除序列名中usearch格式的注释信息部分 |
fastx_subsample | 提取序列的随机子集,相当于序列抽样 |
fastx_syncpairs | 对应双端序列中的序列顺序,适合双端无法对应时使用 |
fastx_trim_primer | 移除序列中的引物序列 |
fastx_truncate | 去除序列左、右的部分,如barcode、引物 |
fastx_uniques | 序列去冗余 (dereplicate) |
fastx_uniques_persample | 鉴定单样品中的非冗余序列 |
filter_lowc | 过滤低复杂序列 |
filter_phix | 过滤PhiX序列 |
sortbylength | 按序列长度降序排序 |
sortbysize | 按序列丰度size=N降序排列 |
Machine learning and finding informative OTUs
命令 | 功能简介 |
---|---|
forest_classify | 随机森林分类 |
forest_train | 训练集建立随机森林模型 |
otutab_core | 鉴定OTU表中的核心OTUs |
otutab_forest_classify | OTU表中样品的随机森林分类 |
otutab_forest_train | 基于OTU表的随机森林训练 |
otutab_select | 鉴定有用OTUs (predictive of metadata) |
Miscellaneous commands
命令 | 功能简介 |
---|---|
search_16s | 在染色体或叠连群上鉴定16S序列 |
udb2bitvec | 建立16S数据库索引,用于search_16s |
Commands for OTU analysis and denoising
命令 | 功能简介 |
---|---|
alpha_div | 计算OTU表的17种Alpha多样性指数,输入OTU表需要抽平才合理 |
alpha_div_rare | 计算Alpha多样性稀释曲线原始数据,可用Excel或R绘图 |
alpha_div_sig | 按实验设计分组统计Alpha多样性组间显著性 |
annot | 注释OTUs,如已知(人工重组模拟群落、参考数据库),嵌合体等 |
beta_div | 计算近10种beta多样性距离矩阵 |
closed_ref | 基于参考数据库构建OTU表 |
cluster_aggd | 使用凝聚法聚类距离矩阵 |
cluster_otus | 采用UPARSE算法聚类序列 |
fastx_learn | 估计扩增子序列中的错误率 |
filter_lowc | 过滤低复杂度序列 |
filter_phix | 过滤PhiX序列 |
nbc_tax | 使用RDP分类算法物种分类 |
otutab | 生成OTU表 |
otutab2biom | 转换OTU表为biom(json)格式 |
otutab_binary | 转换OTU表为0/1(有/无)二元格式 |
otutab_core | 鉴定微生物组核心OTUs |
otutab_counts2freqs | 转换原始counts值为频率(相对丰度) |
otutab_forest_classify | 使用随机森林分类 |
otutab_forest_train | 基于OTU表进行随机森林学习建决策树 |
otutab_group | 按分组进行合并样品,多样品数值求合为一组 |
otutab_merge | 合并两个或多个OTU表 |
otutab_octave | 八度图展示OTU丰度分布 |
otutab_otu_subset | 提取OTUs表子集 |
otutab_otus | 提取OTUs表中OTUs的名字 |
otutab_rare | 抽样OTUs数据量至相同 |
otutab_sample_subset | 提取OTU表中部分样品 |
otutab_samples | 提取OTU表中样品名 |
otutab_select | 鉴定有用的OTUs(分组预测) |
otutab_sortotus | OTU表按丰度降序排列 |
otutab_stats | OTU表基本信息统计,如样本、OTU数量,样本测序量分位数等 |
otutab_trim | 按OTU表counts, OTU和样品数据量等条件过滤 |
otutab_xtalk | 估计和过滤OTU表中的cross-talk |
qiimemap2otutab | 转换QIIME比对文件为OTU表 |
search_oligodb | 检索匹配短序列,如引物 |
search_pcr | 电子PCR,在数据库中检索成对引物(可以为多对引物) |
search_pcr2 | 检索一对引物 |
search_phix | 检索PhiX |
sinaps | 预测性状 |
sintax | 预测物种分类 |
sintax_summary | 按分类级汇总OTU表 |
tabbed2otutab | 转换比对文件(read+OTU)为OTU表 |
uchime2_ref | 基于参考数据库和UCHIME2算法检测嵌合体 |
uchime3_denovo | 使用UCHIME3算法和OTU自身序列集检测嵌合体 |
unbias | 校正OTU表中丰度偏差 |
unoise3 | 扩增子序列去噪,获得精度序列变异的特征序列(Features) |
uparse_ref | 分类来自人工重组群体的序列,类似于closed reference |
OTU table commands
命令 | 功能简介 |
---|---|
alpha_div | 基于OTU表计算Alpha多样性 |
alpha_div_rare | 采用稀疏方法计算Alpha多样性丰富度曲线原始数值 |
alpha_div_sig | 统计alpha多样性组间差异是否显著 |
beta_div | 基于OTU表计算beta多样性矩阵 |
otutab | 创建OTU表 |
otutab2biom | 转换OTU表为biom(json)格式 |
otutab_binary | 转换OTU表为0/1二元格式 |
otutab_core | 鉴定核心微生物组OTUs |
otutab_counts2freqs | 转换counts值为频率(相对丰度) |
otutab_forest_classify | 使用随机森林分类 |
otutab_forest_train | 基于OTU表进行随机森林学习建决策树 |
otutab_group | 按分组进行样品求和合并 |
otutab_merge | 合并两个或多个OTU表 |
otutab_octave | 八度图展示OTU丰度分布 |
otutab_otu_subset | 提取OTU表子集 |
otutab_otus | 提取OTU表中OTU的名字 |
otutab_samples | 提取OTU表中样品名 |
otutab_rare | 抽样OTU数据量相同 |
otutab_sample_subset | 提取OTU表中部分样品 |
otutab_select | 鉴定有信息的OTUs(分组预测) |
otutab_sortotus | OTU表按降序排列 |
otutab_stats | OTU表基本信息统计 |
otutab_trim | 按OTU表count值, OTU和样品等条件过滤 |
otutab_xtalk | 估计和过滤OTU表中的cross-talk |
qiimemap2otutab | 转换QIIME比对文件为OTU table |
tabbed2otutab | 转换比对文件(read+OTU)为OTU表 |
unbias | 校正OTU表中丰度偏差 |
Next-generation reads
命令 | 功能简介 |
---|---|
fastq_chars | 质量评估,报告质量值Q的质量分布频率 |
fastq_eestats | 报告每个碱基位置的质量值 |
fastq_eestats2 | 报告不同长度reads的数量 |
fastq_filter | 按fastq质量值的错误率或其它阈值对序列进行质量控制 |
fastq_join | 直接到双端序列按行连接为单个文件 |
fastq_mergepairs | 合并双端序列,需要双端末端有重叠,否则抛弃 |
fastq_sra_splitpairs | 拆分SRA格式为双端双文件格式 |
fastx2qiime | 转换usearch格式为qiime格式 |
fastx_demux | 拆样,按barcode序列为分配序列的样品来源(demultiplex) |
fastx_findorfs | 鉴定核酸中的ORF,功能基因 |
fastx_get_sample_names | 提取样品名 |
fastx_getlabels | 提取序列标签 |
fastx_getseq | 提取某个序列名对应的序列 |
fastx_getseqs | 提取一组序列名对应的序列 |
fastx_getsubseq | 按序列标签、起始、终止提取序列 |
fastx_info | 汇报序列的摘要报告 |
fastx_learn | 估计扩增序列的错误率 |
fastx_subsample | 提取序列的随机子集,相当于序列抽样 |
fastx_syncpairs | 对应双端序列的顺序 |
fastx_trim_primer | 移除序列中的引物序列 |
fastx_truncate | 去除序列左、右的部分,如barcode、引物 |
filter_lowc | 过滤低复杂序列 |
filter_phix | 过滤PhiX序列 |
search_oligodb | 检索匹配短序列,如引物 |
search_pcr | 电子PCR,在数据库中检索成对引物(可以为多对引物) |
search_pcr2 | 检索一对引物 |
search_phix | 检索PhiX |
Sequence database search
命令 | 功能简介 |
---|---|
makeudb_sintax | 制作物种注释数据库UDB格式索引,可节约计算时间 |
makeudb_ublast | 创建ublast数据库索引 |
makeudb_usearch | 创建usearch_global数据库索引 |
search_exact | 检索完全相同的序列 |
search_global | 全局比对检索数据库,不使用试探法加速 |
search_local | 局部、本地比对检索数据库,不使用试探法加速 |
search_oligodb | 检索匹配短序列,如引物 |
search_pcr | 电子PCR,在数据库中检索成对引物(可以为多对引物) |
search_pcr2 | 检索一对引物 |
search_peptidedb | 检索匹配短肽序列 |
search_phix | 检索PhiX |
ublast | 本地比对方法快速在数据库在检索,比BLAST更快(much faster than BLAST) |
usearch_global | 全局比对方法快速在数据库中检索 |
usearch_local | 本地比对方法快速在数据库中检索,类似blast |
Taxonomy commands
命令 | 功能简介 |
---|---|
calc_lcr_probs | 基于距离矩阵和物种计算最低共同级别(最近共同祖先)的概率 |
makeudb_sintax | 制作物种注释数据库UDB格式索引,可节约计算时间 |
nbc_tax | 使用RDP分类算法物种分类 |
sintax | 预测物种分类 |
sintax_summary | 按分类级汇总OTU表,常用门、纲、目、科、属、种 |
Tree commands
命令 | 功能简介 |
---|---|
calc_distmx | 计算稀疏的距离矩阵 |
cluster_tree | 基于距离阈值和树构建簇 |
subtree | 提取指定结点下的子树 |
tree2distmx | 基于树计算矩阵矩阵 |
tree_cvt | 转换树文件格式,制表分隔与Newick格式相互转换 |
tree_subset | 按叶子集提取树 |
Labels and annotations
命令 | 功能简介 |
---|---|
fastx2qiime | 转换usearch格式为qiime格式 |
fastx_getlabels | 提取序列标签 |
fastx_relabel | 按样本名重命名序列 |
fastx_strip_annots | 移除序列名中usearch格式的注释信息 |
otutab_otus | 提取OTUs表中OTU名字 |
otutab_samples | 提取OTU表中样品名 |
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1800+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 21:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社