zd200572的个人博客分享 http://blog.sciencenet.cn/u/zd200572

博文

MOTHUR学习笔记

已有 9902 次阅读 2018-7-9 12:52 |个人分类:biology|系统分类:科研笔记

最近有点好奇,仅次于qiime的Mothur,用起来感觉如何,于是决定尝试下。虽然qiime还没有学会学透,但人活着就要折腾嘛,否则与咸鱼有什么区别,哈哈。

1.下载地址

Github项目地址–https://github.com/mothur/mothur

软件下载地址:https://github.com/mothur/mothur/releases/download/v1.40.5/Mothur.win_64.zip

p.s.这次决定用win10试试,我把thinkpad-额31上的12G内存分了4g给另一台电脑联想C2030,8g内存分析扩增子数据应该ok了。

2.安装和使用

安装就很简单了,解压到一个文件夹就哦了,然后,双击mothur.exe,竟然跳出一个cmd窗口,挺好的,门槛较低。

 

2.下面学习一下使用

2.1 下载示例数据

有两个版本,一个分好的,另一个是原始文件。

分好的样本数据:https://www.mothur.org/w/images/d/d6/MiSeqSOPData.zip

解压得到21对PEfastq数据,放在mothur程序文件夹。

原始文件:http://www.mothur.org/MiSeqDevelopmentData/StabilityNoMetaG.tar

解压得到362对PEfastq数据

make.file命令生成stability.files,这个应该是文件列表文件吧。

01#1. make.file命令获得数据文件列表
02make.file(inputdir=MiSeq_SOP, type=fastq, prefix=stability)
03#2. 减少测序和pcr错误
04 make.contigs(file=stability.files, processors=4)
05#3. 查看处理统计
06summary.seqs(fasta=stability.trim.contigs.fasta)
07#4. 去除拼接不好的,含N的,过长的序列 ,两个命令二选一,每二个快点,因为调用了之前的统计文件
08screen.seqs(fasta=stability.trim.contigs.fasta, group=stability.contigs.groups, maxambig=0, maxlength=275)
09screen.seqs(fasta=stability.trim.contigs.fasta, group=stability.contigs.groups, summary=stability.trim.contigs.summary, maxambig=0, maxlength=275)
10#mothur可以自动记住软件参数,比如:
11get.current()
12Current RAM usage: 3.40499 Gigabytes. Total Ram: 7.88905 Gigabytes.
13
14Current files saved by mothur:
15accnos=MiSeq_SOP\stability.trim.contigs.bad.accnos
16fasta=MiSeq_SOP\stability.trim.contigs.good.unique.fasta
17group=MiSeq_SOP\stability.contigs.good.groups
18name=MiSeq_SOP\stability.trim.contigs.good.names
19qfile=MiSeq_SOP\stability.trim.contigs.qual
20contigsreport=MiSeq_SOP\stability.contigs.report
21count=MiSeq_SOP\stability.trim.contigs.good.count_table
22processors=4
23summary=MiSeq_SOP\stability.trim.contigs.good.unique.summary
24file=MiSeq_SOP\stability.files
25
26Current input directory saved by mothur: MiSeq_SOP\
27
28Current default directory saved by mothur: D:\软件源文件\mothur\
29
30Current working directory: D:\软件源文件\mothur\
31
32Output File Names:
33current_files.summary
34#5. 处理过滤后的序列
35#获取唯一序列
36unique.seqs(fasta=stability.trim.contigs.good.fasta)

view source

01#计数
02count.seqs(name=stability.trim.contigs.good.names, group=stability.contigs.good.groups)
03#统计结果
04summary.seqs(count=stability.trim.contigs.good.count_table)
05#制作比对数据库,参数暂未搞清楚,应该是其中的细菌序列
06pcr.seqs(fasta=silva.bacteria.fasta, start=11894, end=25319, keepdots=F, processors=4)
07#文件重命名
08rename.file(input=silva.bacteria.pcr.fasta, new=silva.v4.fasta)
09#再次统计
10
11summary.seqs(fasta=silva.v4.fasta)
12#比对
13align.seqs(fasta=stability.trim.contigs.good.unique.fasta, reference=silva.v4.fasta)
14#统计比对情况
15

 summary.seqs(fasta=stability.trim.contigs.good.unique.align, count=stability.trim.contigs.good.count_table)


 https://jiawen.zd200572.com/443.html




https://blog.sciencenet.cn/blog-623545-1123056.html

上一篇:SNP2HLA学习笔记2
下一篇:做了个简陋的网页娱乐版HLA分型
收藏 IP: 222.95.12.*| 热度|

1 黄娇

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 17:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部