|||
在上一篇文章《使用MutMap快速定位突变基因:原理篇》中,我对MutMap的原理进行的简单的介绍。在本篇教程中,我会对MutMap分析的流程及分析过程中使用到的软件及其参数的设置进行逐一的分解,以求对MutMap的分析流程有更深入的理解。
使用说明:
fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]过滤低质量序列
[-q N] = 最小的需要留下的质量值
[-p N] = 每个reads中最少有百分之多少的碱基需要有-q的质量值
[-z] =压缩输出
[-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR
在MutMap中,使用q30p90对数据进行质控。
【特别说明】:对于 Illumina 1.8+ Phred+33规则进行质量打分的测序数据,需要添加-Q33选项,否则程序不能识别打分字符,会报错。
使用说明:
fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]
[-h] = 获得帮助信息
[-i] = FASTA/Q格式的输入文件
[-o] = 输出路径,如果不设置会直接输出到屏幕
结果输出到每个样本下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz
,这些reads为质控后的高质量的reads,用于构建参考基因组和后续的比对分析。
统计结果输出到每个样本下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz_stats.txt
,这些txt格式的文件中存储着过滤后的reads的统计信息。
运行程序./Bat_make_symbolic_link_of_qualified_fastq.sh
,在2.make_consensus
文件夹中,为该步骤中要处理的数据创建链接,链接到1.qualify_read
文件夹下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz
数据,这些数据为第一步质控过的高质量数据。
使用软件:BWA
使用命令:bwa index -p 输出文件名 -a reference.fa
确定reads在参考基因组上的坐标。
使用软件:BWA
使用命令: bwa aln
bwa aln -n 0.04 -o 1 -k 2 -t 20 reference.fa leftRead.fastq > leftRead.sai
bwa aln -n 0.04 -o 1 -k 2 -t 20 reference.fa rightRead.fastq > rightRead.sai
参数说明:
-n :NUM Maximum edit distance if the value is INT, or the fraction of missing alignments given 2% uniform base error rate if FLOAT. In the latter case, the maximum edit distance is automatically chosen for different read lengths. [0.04]
-o:Maximum number of gap opens
-k:Maximum edit distance in the seed
-t:Number of threads (multi-threading mode)
将上一步的SA coordinates输出的fai格式的文件转换为sam格式的文件。
使用软件:BWA
使用命令:bwa sample
bwa sample -a 1000 -n 3 -N 10 reference.fa leftRead.sai leftRead.fastq > leftRead.sam
bwa sample -a 1000 -n 3 -N 10 reference.fa rightRead.sai rightread.fastq > rightRead.sam
参数说明:
-a:Maximum insert size for a read pair to be considered being mapped properly. Since 0.4.5, this option is only used when there are not enough good alignment to infer the distribution of insert sizes.
-n:Maximum number of alignments to output in the XA tag for reads paired properly. If a read has more than INT hits, the XA tag will not be written.
-N:Maximum number of alignments to output in the XA tag for disconcordant read pairs (excluding singletons). If a read has more than INT hits, the XA tag will not be written.
使用软件:samtools
使用命令:samtools view
samtools view -Sb leftRead.sam > leftRead.bam
samtools view -Sb rightRead.sam > rightRead.bam
参数说明:
-S: input is SAM
默认下输入是 BAM 文件,若是输入是 SAM 文件,则最好加该参数,否则有时候会报错。
-b: output BAM
默认下输出是 SAM 格式文件,该参数设置输出 BAM 格式
使用软件:samtools
使用命令:samtools merge
samtools merge left_and_right.bam leftRead.bam rightRead.bam
使用软件:samtools
使用命令:samtools sort
samtools sort left_and_right.bam left_and_right_sorted.bam
使用软件:samtools
使用命令:samtools rmdup
samtools rmdup myBAMums_sorted.bam myBAMums_MSR.bam
使用软件:samtools
使用命令:samtools index
samtools index myBAMums_MSR.bam
使用软件:coval refine
文件输出:2.make_consensus\20.coval_refine
文件夹下
使用软件:coval call
寻找亲本重测序reads和Nip之间的snp位点和Indel,用于下一步构建亲本参考基因组。
文件输出:2.make_consensus\30.coval_call
文件夹下
使用脚本:
/Bat_RYKMSWBDHV_to_ACGT.pl.sh
/Bat_make_consensus.sh
文件输出:2.make_consensus\50.make_consensus
文件夹下
找由于错配导致的变异位点,用于后续的排除和过滤
使用软件:bwa、cover refine、cover call
文件输出: 2.make_consensus\90.align_to_this_fasta\30.coval_call
文件夹下
分析步骤:
3.analysis\70.awk_custom
3.analysis\90.slidingwindow
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 19:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社