材料介绍:11个地点的132个个体重测序,获得VCF格式数据,通过Treemix推测迁移事件。
1、使用vcftools将VCF文件转换成.ped(此格式丢失了数据,我换用了.tped格式)或者.tped格式文件;
vcftools --gzvcf DK.vcf.gz --plink-tped --out DK
此步骤结束,可得到 DK.tfam 和 DK.tped 文件;
此时DK.tfam文件格式为:IID IID 0 0 0 0;每个个体一行;顺序为VCF文件中的个体顺序;
这里需要将格式转换成: FID IID 0 0 0 0;
此时DK.tped文件格式: 0 scaffold36:52 0 52 G G X X: 每个个体2个Allele;顺序排开;
2、使用plink统计allele的频数
plink --tfile DK --freq --noweb --missing --within pop.cov
其中 pop.cov中定义了每个个体属于哪个群体,格式如下;
FID IID clusterID
Egypt 161 1
https://blog.sciencenet.cn/blog-3313221-1040475.html
下一篇:
对基因组序列进行模拟酶切(电子酶切)的Perl包(module)