|
G分布预测群体QTL
这个方法是最早的在植物里面应用BSA方法鉴定QTL,被Paul等2011年发表在 Plos Computational Biology,似乎后面实际应用并不是很多。它是建立在python 语言的基础上,具体原理大家可以看我后面的参考文献。
这里我主要讲怎么操作:
第一步:处理raw data
包括去除低质量的reads,这个可以用fastqc等工具做。
第二步,mapping reads
可以用samtools, bwa,bowtie等alignment 工具。
第三步,calling SNP and Indel
可以用samtools或者其他calling SNP和Indel的工具。
最后的到的数据生成格式如下:
两个bulk populations,假定为H-bulk和L-bulk。数据主要为四列
第一列, SNP名字
第二列,SNP位置
第三列, H 基因型的SNP覆盖数,第四列,L 基因型的SNP覆盖数。
ref|NC_001133|40205
ref|NC_001133|9492516
ref|NC_001133|9682417
第四步,计算raw andsmoothed G-statistics
这一步主要用bsacalc.py计算
command:bsacalc.py -L L-bulk -H H-bulk
如果你有多个low或者high基因型数据,可以分别每个文件输入计算。
## Optional arguments
- -o, --outfile: file for output
- -k, --kernel: type of smoothing kernel
- -w, --width: width of the smoothing kernel (in bp)
输出的文件格式有四列:
第一列:染色体数
第二列:染色体位置
第三列:Raw G statistics
第四列:Smoothed G-statistics
例子:
$ python ../bsacalc.py -L het1cts-simple.txt -H het3cts-complex.txt -w 33750 -k tricube -o ccm-example.out
第五步:作图
作图用code bsadraw.py 进行绘图。
### Smoothed G-stats only, genome wide
$ python ../bsadraw.py -g ccm-example.out -c scer_chromlen.txt -o genomic-smooth.png --noraw
### Smooth and raw G-stats, chromosome 10
$ python ../bsadraw.py -g ccm-example.out -c scer_chromlen.txt -o chrom10.png --rawclr='0.5' -n 10 --figsize 5 4 --ylim 0 40 --smoothclr='green'
参数说明:
- -g, --gstats: G-statistics output from bsacalc.py. If -g is not specified that will look for input from stdin.
- -c, --chromlens: A file with a list of chromosome lengths (in bp). Order of chromosome should be same as order given in input to bsacalc.py. Plain text file, one chromosome per line.
- -o, --outfile: The name of the file where the output figure is to be written to. The figure format is inferred from the filename extension. Supported extensions -- .pnf, .pdf, .jpg, .ps, .eps, .svg.
## Optional arguments
- -n: Chromosome number to draw (1-indexed). If n=0 (default) the output is the whole genome.
- --coords: start and stop coordinates to include in figure (1-indexed)
- --ylim: y-axis limits of drawing
- --figsize: width, and height of figure in inches
- --nticks: number of ticks on x-axis when drawing single chromosome
- --maxgap: maximum interval between sites for which curve lines are connected
- --noraw: Suppresses drawing of raw G-values
- --rawclr: Color of points used to depict raw G-values
- --smoothclr: Color of lines used to depict smoothed G-values
- --smoothwidth: Width of lines used to depict smoothed G-values
参考文献:
Magwene, P. M., J. H. Willis, and J. K. Kelly. 2011. The statistics of bulk segregant analysis using next-generation sequencing. PLoS Computational Biology, 7(11):e1002255.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社