|
上一期跟大家一起学习了Structure软件的运行方法,在群体结构的分析中,Structure运行结果还需要确定最佳K值和K值对应的3-5次重复运行结果合并为同一个Q值矩阵。生成的矩阵可作为协方差在关联分析中纠正由于群体分层导致的假阳性关联。群体遗传结构分析除了Structure群体结构分析之外,还需要对比种质资源群体的材料来源、育种史、系统分类、品系特性、进化特征等信息进行分析,还需要结合材料的亲缘关系(遗传相似性、UPGMA聚类)、二维主坐标分析(PCA)综合讨论,并比较各群体的遗传多样性和特有等位基因(Private Alleles),才可以更加系统深入的理解群体的遗传结构。感兴趣的可以阅读石河子大学聂新辉老师的一篇SCI文章(Nie XH et al. Genome-wide SSR-based association mapping for fiber quality in nation-wide upland cotton inbreed cultivars in China. BMC Genomics, 2016, 17:352. DOI 10.1186/s12864-016-2662-x)。
相关软件使用方法参照本公众号往期文章
言归正传,本期跟大家一起学习Structure软件运行结束后最佳K值的计算和合并Q矩阵的Clumpp软件使用方法。
K值确定
K值确定有两种方法,一是可以在Excel中根据公式一步一步计算,二是将Structure软件的Results文件夹用zip格式压缩用Structure Harvester在线软件一步法分析。
方法一:
PS:为了更好的理解,我就不书写规范的公式了。
Excel中依次计算每个K值的3次重复的LnP(D)和Var[LnP(D)]的平均值。
然后计算ΔK的分子
ΔK的分子=((K+1的LnP(D)均值+(K-1的LnP(D)均值))-2*K的LnP(D)均值。
Var[LnP(D)]是LnP(D)的方差
LnP(D)标准差=Var[LnP(D)]均值/群体样本数
ΔK=SQRT(ABS(ΔK的分子/LnP(D)标准差))
计算完成后,对数据进行整理。如下图所示。插入带曲线的散点图,生成LnP(D)和ΔK随着K值变化的曲线图。最佳K值在两个曲线的拐点处。
方法二:
Structure软件运行的结果result文件夹用zip格式压缩后打包上传至Structure Harverster,自动进行计算,网站会提供最佳K值和整理好的的Clummp输入格式文件文件后缀名.indfile。
网站网址:
http://taylor0.biology.ucla.edu/structureHarvester/
页面如下
在将Structure运行的Results打包为zip压缩文件后,点击选择文件。
打开成功后,如下图
直接点击Harvest!就可以得到分析结果。
这个图与上面excel计算的ΔK随K值变化曲线是同一个图。并且,网站会显示出最佳K值。(本文所用两种方法不是同一组数据的,所以曲线图不同)
我们可以根据最佳K值去上面的CLUMPP input file去选择对应的indfile,用于clumpp合并3-5次运行的Result结果。在结果展示一开始的地方,我们还可以打包下载所有的分析结果。如下图所示。
这个网站非常方便,比手动计算节约非常多的时间。接下来就是要将确定的K值对应的3-5次重复计算结果合并为1个Q值矩阵,做出Q值百分比堆积柱形图,并整理成TASSEL软件的Q矩阵协方差格式矫正关联分析的结果了。
Q值矩阵合并软件——CLUMPP2.0
这个软件是可以将STRUCTURE运行得到的对应K值的多次重复结果进行合并,下载网址https://web.stanford.edu/group/rosenberglab/clumpp.html,无需安装。下载解压缩之后,包括1个CLUMPP.exe应用程序,1个indfile的示例文件,1个参数设置文件paramfile。
1.数据输入格式。数据格式如下图所示,这个文件可以由STRUCTURE软件的结果文件中得到,材料序号、材料编号、缺失标记基因型数目和材料对应每一个cluster的Q值都可以在STRUCTURE软件对应K值的结果文件中找到,只需要在excel中进行调整一下,插入冒号之前的那一列2就可以了。并且不同的重复之间的Q矩阵需要隔开一行。格式整理好之后,可以复制粘帖到txt文档中,并且将后缀名改为indfile。
注意事项:材料编号(第二列)最好是纯数字,不要有字母,否则软件无法运行;如果格式都对,但还是无法运行,请核对参数文件的文件名和保存数据的indfile文件名是否一致,材料数、群体数和重复数是否都正确;排除前两个原因之后,如果仍然无法运行,应该还是数据中有错误,这时可以从windows运行cmd打开DOS命令行在DOS系统中用命令行运行CLUMPP.exe应用程序,这时,会提示出错原因。
需要根据自己数据修改的地方如下图所示。
3.软件运行。Indfile和paramfile都准备好之后,可以直接点击CLUMPP.exe运行,也可以根据前面所说,从DOS命令行启动CLUMPP.exe软件。运行结束后会在软件文件夹生成多个文件。如下图所示,会生成后缀分别为miscfile、outfile和datafile的文件。我们所需要的Q矩阵保存在outfile中。根据TASSEL格式要求整理就可以了。
本期主要内容结束了,下期会更新群体遗传结构分析软件系列的最后一期,利用合并后的Q矩阵绘制百分比柱形堆积图Q plot。敬请期待吧!
服务热线:021- 33559491 021- 33559492
电话或微信:18516561739
网址:http://www.biowing.com.cn/ 邮箱:xiaoly@biowing.com.cn
地址(总公司):上海市松江区龙腾路1015弄中星创意园2号楼502
实验基地:江苏省无锡市滨湖区生物医药研发服务产业园
微信公众号:上海翼和生物
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 05:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社