|
PoPoolation2 是通过比较两个混合群体得位点频率的pipeline。
实际上,PoPoolation2 既可以用两个Bi-parental 群体构建混合池,也可以用自然群体的极端材料构建混合池,从而用于GWAS分析。我通常拿到数据后立即用PoPoolation2分析一下定位情况,因为在这些BSA分析方法中,PoPoolation2我认为是是耗时最少的最快捷的方法,其准确性也并不低。
事实上,PoPoolation2的开发者也是属于群体遗传领域里面的大牛,这个是他的发表文章链接https://scholar.google.ca/citations?user=QfLnM80AAAAJ。也专门也写过关于混合群体分析综述
Sequencing pools of individuals — mining genome-wide polymorphism data without big funding,有兴趣的可以去搜索看看。PoPoolation 2的详细的tutoral也可以从这个链接找到:https://code.google.com/archive/p/popoolation2/wikis/Tutorial.wiki#Data。
这里我只是简单的介绍一下流程:
第一步:index reference
这个取决于你后面的bam文件用什么软件生成,通常我是用bwa生成的bam文件。
bwa index ref.fa.
第二步:map reads到reference genome。
第三步:remove 重复错误mapping的reads。
其实我通常是用GATK的pipeline生成的relan bam文件。
第四步:创建 synchronized file
samtools mpileup -B H.recal.bam L.recal.bam > HL.mpileup
java -ea -Xmx128g -jar mpileup2sync.jar --input HL.mpileup --output HL_java.sync --fastq-type sanger --min-qual 20 --threads 20
Sample of a synchronized file:
2R 2302 N 0:7:0:0:0:0 0:7:0:0:0:0 2R 2303 N 0:8:0:0:0:0 0:8:0:0:0:0 2R 2304 N 0:0:9:0:0:0 0:0:9:0:0:0 2R 2305 N 1:0:9:0:0:0 0:0:9:1:0:0
col1: reference contig
col2: position within the refernce contig
col3: reference character
col4: allele frequencies of population number 1
col5: allele frequencies of population number 2
coln: allele frequencies of population number n
第五步:计算 allele frequency differences
perl snp-frequency-diff.pl --input HL_java.sync --output-prefix HL --min-count 1 --min-coverage 50 --max-coverage 1000
第六步:计算 Fst-values
perl fst-sliding.pl --input HL_java.sync --output HL.fst --suppress-noninformative --min-count 1 --min-coverage 50 --max-coverage 1000 --min-covered-fraction 1 --window-size 1 --step-size 1 --pool-size 180
第七步:计算Fisher's Exact Test: estimate the significance of allele frequency differences
perl fisher-test.pl --input HL_java.sync --output HL.fet --min-count 1 --min-coverage 50 --max-coverage 1000 --suppress-noninformative
第八步:作图
References
Robert Kofler, Ram Vinay Pandey, Christian Schlötterer; PoPoolation2: identifying differentiation between populations using sequencing of pooled DNA samples (Pool-Seq). Bioinformatics 2011; 27 (24): 3435-3436. doi: 10.1093/bioinformatics/btr589
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社