农田守望者分享 http://blog.sciencenet.cn/u/sunnycqcn

博文

Bulk sequencing for QTL analysis pipeline 6-G分布预测群体QTL

已有 2433 次阅读 2017-4-28 20:53 |系统分类:科研笔记

2017-04-28 Little frog

G分布预测群体QTL

这个方法是最早的在植物里面应用BSA方法鉴定QTL,被Paul等2011年发表在 Plos Computational Biology,似乎后面实际应用并不是很多。它是建立在python 语言的基础上,具体原理大家可以看我后面的参考文献。


这里我主要讲怎么操作:


第一步:处理raw data

包括去除低质量的reads,这个可以用fastqc等工具做。

第二步,mapping reads

可以用samtools, bwa,bowtie等alignment 工具。

第三步,calling SNP and Indel

可以用samtools或者其他calling SNP和Indel的工具。

最后的到的数据生成格式如下:

两个bulk populations,假定为H-bulk和L-bulk。数据主要为四列

第一列, SNP名字

第二列,SNP位置

第三列, H 基因型的SNP覆盖数,第四列,L 基因型的SNP覆盖数。

ref|NC_001133|40205

ref|NC_001133|9492516

ref|NC_001133|9682417

第四步,计算raw andsmoothed G-statistics

这一步主要用bsacalc.py计算

command:bsacalc.py -L L-bulk -H H-bulk

如果你有多个low或者high基因型数据,可以分别每个文件输入计算。

## Optional arguments

- -o, --outfile: file for output

- -k, --kernel: type of smoothing kernel

- -w, --width: width of the smoothing kernel (in bp)

输出的文件格式有四列:

第一列:染色体数

第二列:染色体位置

第三列:Raw G statistics

第四列:Smoothed G-statistics

例子:

 $ python ../bsacalc.py -L het1cts-simple.txt -H het3cts-complex.txt -w 33750 -k tricube -o ccm-example.out

第五步:作图

作图用code bsadraw.py 进行绘图。

### Smoothed G-stats only, genome wide

   $ python ../bsadraw.py -g ccm-example.out -c scer_chromlen.txt -o genomic-smooth.png --noraw  

### Smooth and raw G-stats, chromosome 10

  $ python ../bsadraw.py -g ccm-example.out -c scer_chromlen.txt -o chrom10.png --rawclr='0.5' -n 10 --figsize 5 4 --ylim 0 40 --smoothclr='green'


参数说明:

- -g, --gstats: G-statistics output from bsacalc.py. If -g is not specified that will look for input from stdin.

- -c, --chromlens: A file with a list of chromosome lengths (in bp). Order of chromosome should be same as order given in input to bsacalc.py.  Plain text file, one chromosome per line.

- -o, --outfile: The name of the file where the output figure is to be written to. The figure format is inferred from the filename extension. Supported extensions -- .pnf, .pdf, .jpg, .ps, .eps, .svg.

## Optional arguments

- -n: Chromosome number to draw (1-indexed). If n=0 (default) the output is the whole genome.

- --coords: start and stop coordinates to include in figure (1-indexed)

- --ylim: y-axis limits of drawing

- --figsize: width, and height of figure in inches

- --nticks: number of ticks on x-axis when drawing single chromosome

- --maxgap: maximum interval between sites for which curve lines are connected

- --noraw: Suppresses drawing of raw G-values

- --rawclr: Color of points used to depict raw G-values

- --smoothclr: Color of lines used to depict smoothed G-values

- --smoothwidth: Width of lines used to depict smoothed G-values

参考文献:

Magwene, P. M., J. H. Willis, and J. K. Kelly. 2011. The statistics of bulk segregant analysis using next-generation sequencing. PLoS Computational Biology, 7(11):e1002255.




https://blog.sciencenet.cn/blog-247610-1051787.html

上一篇:Bulk sequencing for QTL analysis pipeline 5-BSA 分析方法总论
下一篇:Bulk sequencing for QTL analysis pipeline 7-BSR-seq
收藏 IP: 70.64.42.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 02:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部