||
RDP是在扩增子分析中物种注释的常用的数据库之一,USEARCH、VSEARCH是常用的扩增子分析工具。RDP数据库训练集 trainset 18(https://sourceforge.net/projects/rdp-classifier/)仅提供了QIIME使用的数据库格式,
而USEARCH作者Robert Edger提供的RDP数据库(http://www.drive5.com/sintax)仅为几年前的transet 16 (rdp_16s_v16_sp.fa.gz)。
我联系让作者更新一下,居然回复是商业软件申请RDP数据库的授权使用比较麻烦,你们自己制作一下也非常简单。好吧,只能自己动手,丰衣足食了。
在 https://sourceforge.net/projects/rdp-classifier/ 下载QIIME格式的序列和物种注释 RDPClassifier_16S_trainsetNo18_QiimeFormat.zip
目前最新的为RDP 18,2020年更新
但数据库保存于Google服务器上,需要浏览器有VPN才能下载,如我使用了付费版的 谷歌上网助手Ghelper开全局模式方可下载。
我下载的版本保存了国内备份链接,“宏基因组”公众号后台回复“rdp”获得文件下载链接。
# 解压
unzip RDPClassifier_16S_trainsetNo18_QiimeFormat.zip
cd RDPClassifier_16S_trainsetNo18_QiimeFormat
# 统计序列,21195 seqs, 30M
head -n2 RefOTUs.fa
seqkit stat RefOTUs.fa
# 统计物种注释,3界,67门,120纲,210目,545科,3240属和8682种
head Ref_taxonomy.txt
for i in `seq 1 7`; do
cut -f2 Ref_taxonomy.txt| sed 's/; /\t/g' | cut -f $i |sort|uniq -c|sort -k1,1nr |wc -l
done
RDP训练集18版,包括3界,67门,120纲,210目,545科,3240属和8682种。
输入文件:整合前序列和物种注释
# 序列
>AJ000684
gaacgctggcggcgtgcttaacacatgcaagtcgaacggaaaggtctcttcggagatactcgagt
# 物种注释
AJ000684 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Mycobacteriales; f__Mycobacteriaceae; g__Mycobacterium; s__heidelbergense
输出文件:整合后样式——注释+序列(参考USEARCH的RDP16: rdp_16s_v16_sp.fa)
>X71857_S000021696;tax=d:Bacteria,p:Firmicutes,c:Clostridia,o:Clostridiales,f:Clostridiaceae_1,g:Clostridium_sensu_stricto,s:Clostridium_puniceum;
TGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAGCGATGAAGTTCCTTCGGGAATGGATTA
本质上只需要两行命令即可实现格式的输入。首先用sed调整物种注释格式与目标一致,其次使用awk追加至序列文件的ID后面。结果一定要用head检查,确保符合预期。代码如下:
# 修改注释为uearch格式
sed 's/^/>/;s/k__/tax=d:/;s/__/;/;s/; /,/g;s/$/;/' Ref_taxonomy.txt > Ref_taxonomy_usearch.txt
# 预览
head -n3 Ref_taxonomy_usearch.txt
# 添加注释至序列ID
awk 'NR==FNR{a[$1]=$2}NR>FNR{print $0"\t"a[$1]}' Ref_taxonomy_usearch.txt RefOTUs.fa|sed 's/\t$//;s/\t/;/'|less -S > rdp_16s_v18_sp.fa
# 预览结果,应与上面示例的输出文件完全一致,序列字母大小写对结果无影响
head -n4 rdp_16s_v18_sp.fa|cat -A
最终结果下载链接:https://github.com/YongxinLiu/EasyMicrobiome/blob/main/usearch/rdp_16s_v18_sp.fa.gz ,点击页面中的Download下载。
如果以上github链接下载有问题,可使用国内备份链接,“宏基因组”公众号后台回复“rdp”获得文件下载链接。
1/1 | 鎬昏:6 | 棣栭〉 | 涓婁竴椤� | 涓嬩竴椤� | 鏈〉 | 璺宠浆 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-27 00:01
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社