xbinbzy的个人博客分享 http://blog.sciencenet.cn/u/xbinbzy

博文

mothur的make.contigs模块

已有 5762 次阅读 2015-4-21 14:11 |个人分类:工具mothur|系统分类:科研笔记| style, Microsoft, 微软雅黑, mother

make.contigs的功能在于将PE reads组装成tag

包含的参数有:
    file, ffastq, rfastq, ffasta, rfasta, fqfile, rqfile, findex, rindex, oligos, format, tdiffs, bdiffs, pdiffs, align, match, mismatch, gapopen, gapextend, insert, deltaq, allfiles and processors

   

   1、-file,可支持2、3、4列包含fq的格式

   1)2列的格式如下:

       reads1和reads2,与oligos文件配合用于数据分析 This type can be used with an oligos file create a group file for your dataset. )

           small.forward.fastq    small.reverse.fastq

           test.forward2.fastq    test.reverse2.fastq...

   2)3的格式如下:将barcode、primer等在测序数据中进行了去除,并进行了拆分。

      第一列表示样品(group),第二列表示reads1,第三列表示reads2

       F8D0        F8D0_S345_L001_R1_001.fastq    F8D0_S345_L001_R2_001.fastq    

       F8D125    F8D125_S358_L001_R1_001.fastq    F8D125_S358_L001_R2_001.fastq    

       F8D141    F8D141_S359_L001_R1_001.fastq    F8D141_S359_L001_R2_001.fastq

       F8D142    F8D142_S360_L001_R1_001.fastq    F8D142_S360_L001_R2_001.fastq

       F8D143    F8D143_S361_L001_R1_001.fastq    F8D143_S361_L001_R2_001.fastq

       F8D144    F8D144_S362_L001_R1_001.fastq    F8D144_S362_L001_R2_001.fastq

       F8D145    F8D145_S363_L001_R1_001.fastq    F8D145_S363_L001_R2_001.fastq

       F8D146    F8D146_S364_L001_R1_001.fastq    F8D146_S364_L001_R2_001.fastq

       F8D147    F8D147_S365_L001_R1_001.fastq    F8D147_S365_L001_R2_001.fastq    

       F8D148    F8D148_S366_L001_R1_001.fastq    F8D148_S366_L001_R2_001.fastq

       F8D149    F8D149_S367_L001_R1_001.fastq    F8D149_S367_L001_R2_001.fastq

       F8D150    F8D150_S368_L001_R1_001.fastq    F8D150_S368_L001_R2_001.fastq...

   3)4列的格式如下:reads1与reads2, forward index 和 reverse index file,假设只有1个index,则用none表示不存在的

   My.forward.fastq    My.reverse.fastq    none    My.index.fastq


2、- ffastq && rfastq

   ffastq表示forward fastq,rfastq表示reverse fastq,两者必须同时提供
   
   3、-ffasta && rfasta
   ffasta表示forward fasta,rfasta表示reverse fasta,两者必须同时提供

   4、-fqfile && rqfile
   这两个文件主要是提供质量值,配合fasta提供,两者必须同时提供
   
   5、-findex && rindex
   两个文件表示forward index和reverse index,如果提供index file,必须提供oligos file index的格式:

   @M00704:50:000000000-A3G0K:1:1101:15777:1541 1:N:0:0NAGAGAGGATCT+#>>3A3A>CFFF

   @M00704:50:000000000-A3G0K:1:1101:15370:1541 1:N:0:0NAGAGAGGATCT+#>>ABCCCFFFF...

   
   6、-format
   用于表示质量体系,具体可选择 sanger, solexa, illumina1.8+ or illumina, default=illumina1.8+

 

    7、-oligos

   此文件中主要包含primer和barcode的信息,每行的开头必须是primer、barcode,或者是

#primer    CCTACGGGAGGCAGCAG    ATTACCGCGGCTGCTGG

V3primer    ATTAGAWACCCBDGTAGTCCCCCGTCAATTCMTTTRAGT

V5primer    ACTYAAAKGAATTGACGGGACRACACGAGCTGACGAC

V6BARCOD    Eccaaccactg

F01R2ABARCODE    ccaacaacca

F01R2BBARCODE    ccaactgtca

F01R2CBARCODE    ccaacaaacc

F01R2D...

   如果用index文件,只有一端的index,可以加上相关信息告知mothur
BARCODE NONE GCTGATGAGCTG Group1 - would indicate you have a reverse index file, but no forward index file. BARCODE GCTGATGAGCTG NONE Group1 - would indicate you have a forward index file, but no reverse index file.


   应用例子

mothur > make.contigs(ffastq=test_1.fastq, rfastq=test_2.fastq, oligos=test.oligos)
   
   8、-checkorient
   默认是false,设置为true时,表示会反向互补查找primer和barcode

   

   9、-bdiffs && pdiffs && tdiffs

   tdiffs为bdiffs与pdiffs的加和,默认情况下都为0. -bdiffs表示barcode的mismatch数,pdiffs表示primers的mismatch数
   一般建议是bdiffs为1,pdiffs为2.

   

   10、-match && mismatch && gapopen && gapextend

   这几个参数用于reads1与reads2比对找overlap的情况. match表示得分,默认为1;mismatch表示罚分,默认为-1;
   gapopen表示gap插入的罚分,默认为-2;gapextend表示gap延伸的罚分,默认为-1

   

   11、-insert

   设置一个质量值界限,当在合并相同区域时,出现两种情况:一种是某个碱基去除形成gap, 另外是留下此碱基;此时则根据碱基质量来判断是否删除该碱基,默认为20.

   

   12、-deltaq

   在合并相同区域时,当出现两个碱基不一致的情况,通过设置deltaq进行取舍。假设说reads1上此位置的碱基是A,质量值是30,reads2此位置的碱基是G,碱基质量值是20,30-20>deltaq时,就可判定此位置是个A,若是30-20<deltaq,则该位置为N. deltaq默认值为5.

   

   13、-processors

   进程数,默认为1

   

   14、-allfiles

   将reads拆分到不同样品中

   

   15、trimoverlap

   将组装好的tag进行trim,只剩下overlap区域. 默认是F

   

   16、 *.contigs.report的格式解读

   1st: contig accession
   2st: length of contig
   3st: length of overlapping region
   4st: overlap start position
   5st: overlap end position
   6st: # of mismatches
   7st: # of Ns

   

   17、使用实例

mothur > make.contigs(ffastq=test_1.fastq, rfastq=test_2.fastq)

mothur > make.contigs(file=combo.fastq)

mothur > make.contigs(ffasta=test_1.fasta, rfasta=test_2.fasta)

mothur > make.contigs(ffasta=test_1.fasta, rfasta=test_2.fasta, rqfile=test_1.qual, fqfile=test_1.qual)

   

   参考资料源:  http://www.mothur.org/wiki/Make.contigs



https://blog.sciencenet.cn/blog-306699-884085.html

上一篇:mothur align.seqs中v3-4区域的位置界定
下一篇:Counsyl的模式与技术
收藏 IP: 183.49.44.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-23 07:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部