|
种质资源评价的内容包括遗传多样性、亲缘关系、指纹图谱和遗传结构分析。遗传多样性和亲缘关系的分析方法详见往期文章。本系列主要是讲群体遗传结构分析的软件Structure2.0、最佳K值确定、Clumpp2.0合并Q矩阵和Q plot的绘制。
STRUCTURE是对群体进行基于数学模型的亚群划分一,并计算材料相应的Q值(即第i材料其基因组变异源于第K群体的概率)。基本原理是,首先假定样本存在k个等位变异频率特征类型数(即服从Hardy-Weinberger平衡的亚群,这里k可以是未知的),每一亚群SSR/SNP位点由一套等位变异频率表征,将样本中各材料归到(或然率用Bayesian方法估计)第k个亚群,使得该亚群群内位点频率都遵循同一个Hardy-Weinberger平衡。先设定群体数目k=2到k=10,并假定位点都是独立的,将开始时MCMC的不作数迭代设为100,000次,再将不作数迭代后的设为100,000次,3个以上重复的K值对应的LnP(D)值平均值及其标准差,然后依据似然值最大的原则或计算ΔK峰值拐点处选取一个合适的K值。用于该分析模型的SSR/SNP位点最好是相互独立的,位点两两间的连锁不平衡R2<0.2为宜。
具体操作步骤:
1.软件下载安装。可在http://pritch.bsd.uchicago.edu/structure.html官网下载最新版本。老版本的2.0软件需要Java Runtime,所以需要下载安装JRE1.5以上版本。官网还可以下载到命令行控制运行的版本以及适合于大规模SNP数据的FastStrucuture软件。在此,先介绍一下在windows系统下,针对低通量弱连锁的标记基因型数据的使用方法。
2.数据格式。数据格式如下图所示,可识别单倍体、二倍体和多倍体数据,格式就是以每个材料有几行进行区分。基因型数据可从1开始的数字表示不同的基因型,缺失数据用-1表示。在Excel中整理好格式以后,复制粘帖至txt中保存。需要注意的是:有时候数据无法导入软件或者识别总是少一行,这种情况下请检查a.在基因型数据中是否有快捷保存时候误输入的S字母;b.在数据第一行最后一个数据后加一个空格。
3.数据导入。打开STRUCUTURE.exe应用程序,File菜单下选择Open data file,在弹出的对话框中找到自己存储数据的文件,点击打开,打开成功后,会弹出一个对话框,提示导入数据的存储路径以及行数和列数。
4.新建Project。在File菜单下,选择NewProject,弹出对话框,设置参数。
在对应的位置填写新Project的名字、存储的路径和数据文件。设置好之后,点击next弹出对话框Step2,根据数据输入样本数、数据的倍性、位点数目和缺失数据表示方法。然后点击next。
弹出如下对话框Step3
Step3对输入数据的行进行定义,根据实际导入数据进行选择。比如,第一行包括了标记名称,可以第一项Row of marker names前面选中。然后点击Next。需要注意的是,如果第一行包括了标记名称,则标记名称必须从第一行的第一个单元格开始。
Step4是对数据的列进行定义,根据实际导入数据进行选择,比如第一列包括了样本编号,所以第一项Individual ID for each individual前面选中。选中之后,点击Finish,导入数据成功。
点击Proceed。Project创建成功。
5.参数设置。Parameter Set菜单下,选择New,弹出对话框。
Run length设置。Burnin Period设为50,000,MCMC Reps设为50,000,其他都可以选择默认设置。点击OK,给新的参数集设定个名字,点击OK。
6.运行。在Projet菜单下,选择Start ajob,弹出对话框。
选中参数集,设置K从1到10,Number of Iterations可以设为3-5均可,表示每个K值计算3-5次重复,K从1变化到10.。设置完成后,点击Start运行。如果无法运行程序,可关闭软件之后,再在File菜单下找到open project,根据文件路径找到建立的project,再次重复运行start a job的操作。只要数据没有问题,是可以正常运行的。
正常运行的状态如下图所示。
运行完之后,参数集的文件夹下会出现一个Results的文件夹。
运行完毕之后,选择Simulation Summary,将右边的K值对应的LnP(D)和Var[LnP(D)]在file中另存为text文档(Save as text file)。
至此,软件运算完成。可以根据运行结果进行后续的K值确定、曲线绘制、合并Q矩阵、绘制Q值plot。敬请期待后续精彩内容吧。
服务热线:021- 33559491 021- 33559492
电话或微信:18516561739
网址:http://www.biowing.com.cn/ 邮箱:xiaoly@biowing.com.cn
地址(总公司):上海市松江区龙腾路1015弄中星创意园2号楼502
实验基地:江苏省无锡市滨湖区生物医药研发服务产业园
微信公众号:上海翼和生物
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 23:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社