doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

群体遗传结构分析软件系列

已有 3731 次阅读 2021-12-19 14:35 |系统分类:博客资讯

        种质资源评价的内容包括遗传多样性、亲缘关系、指纹图谱和遗传结构分析。遗传多样性和亲缘关系的分析方法详见往期文章。本系列主要是讲群体遗传结构分析的软件Structure2.0、最佳K值确定、Clumpp2.0合并Q矩阵和Q plot的绘制。

STRUCTURE2.3.1

        STRUCTURE是对群体进行基于数学模型的亚群划分一,并计算材料相应的Q值(即第i材料其基因组变异源于第K群体的概率)。基本原理是,首先假定样本存在k个等位变异频率特征类型数(即服从Hardy-Weinberger平衡的亚群,这里k可以是未知的),每一亚群SSR/SNP位点由一套等位变异频率表征,将样本中各材料归到(或然率用Bayesian方法估计)第k个亚群,使得该亚群群内位点频率都遵循同一个Hardy-Weinberger平衡。先设定群体数目k=2k=10,并假定位点都是独立的,将开始时MCMC的不作数迭代设为100,000次,再将不作数迭代后的设为100,000次,3个以上重复的K值对应的LnP(D)值平均值及其标准差,然后依据似然值最大的原则或计算ΔK峰值拐点处选取一个合适的K值。用于该分析模型的SSR/SNP位点最好是相互独立的,位点两两间的连锁不平衡R2<0.2为宜。

具体操作步骤:

1.软件下载安装。可在http://pritch.bsd.uchicago.edu/structure.html官网下载最新版本。老版本的2.0软件需要Java Runtime,所以需要下载安装JRE1.5以上版本。官网还可以下载到命令行控制运行的版本以及适合于大规模SNP数据的FastStrucuture软件。在此,先介绍一下在windows系统下,针对低通量弱连锁的标记基因型数据的使用方法。

2.数据格式。数据格式如下图所示,可识别单倍体、二倍体和多倍体数据,格式就是以每个材料有几行进行区分。基因型数据可从1开始的数字表示不同的基因型,缺失数据用-1表示。在Excel中整理好格式以后,复制粘帖至txt中保存。需要注意的是:有时候数据无法导入软件或者识别总是少一行,这种情况下请检查a.在基因型数据中是否有快捷保存时候误输入的S字母;b.在数据第一行最后一个数据后加一个空格。

11.jpg

3.数据导入。打开STRUCUTURE.exe应用程序,File菜单下选择Open data file,在弹出的对话框中找到自己存储数据的文件,点击打开,打开成功后,会弹出一个对话框,提示导入数据的存储路径以及行数和列数。

22.jpg

4.新建Project。在File菜单下,选择NewProject,弹出对话框,设置参数。 

33.jpg

在对应的位置填写新Project的名字、存储的路径和数据文件。设置好之后,点击next弹出对话框Step2,根据数据输入样本数、数据的倍性、位点数目和缺失数据表示方法。然后点击next 

44.jpg

弹出如下对话框Step3

55.jpg

Step3对输入数据的行进行定义,根据实际导入数据进行选择。比如,第一行包括了标记名称,可以第一项Row of marker names前面选中。然后点击Next。需要注意的是,如果第一行包括了标记名称,则标记名称必须从第一行的第一个单元格开始。

66.jpg

Step4是对数据的列进行定义,根据实际导入数据进行选择,比如第一列包括了样本编号,所以第一项Individual ID for each individual前面选中。选中之后,点击Finish,导入数据成功。

77.jpg

点击ProceedProject创建成功。

88.jpg

5.参数设置。Parameter Set菜单下,选择New,弹出对话框。

99.jpg

Run length设置。Burnin Period设为50,000MCMC Reps设为50,000,其他都可以选择默认设置。点击OK,给新的参数集设定个名字,点击OK

110.jpg

6.运行。在Projet菜单下,选择Start ajob,弹出对话框。

120.jpg

选中参数集,设置K110Number of Iterations可以设为3-5均可,表示每个K值计算3-5次重复,K1变化到10.。设置完成后,点击Start运行。如果无法运行程序,可关闭软件之后,再在File菜单下找到open project,根据文件路径找到建立的project,再次重复运行start a job的操作。只要数据没有问题,是可以正常运行的。

正常运行的状态如下图所示。 

130.jpg

运行完之后,参数集的文件夹下会出现一个Results的文件夹。

140.jpg

运行完毕之后,选择Simulation Summary,将右边的K值对应的LnP(D)Var[LnP(D)]file中另存为text文档(Save as text file)

150.jpg

至此,软件运算完成。可以根据运行结果进行后续的K值确定、曲线绘制、合并Q矩阵、绘制Q值plot。敬请期待后续精彩内容吧。


服务热线:021- 33559491    021- 33559492

电话或微信:18516561739

网址:http://www.biowing.com.cn/       邮箱:xiaoly@biowing.com.cn 

地址(总公司):上海市松江区龙腾路1015弄中星创意园2号楼502

实验基地:江苏省无锡市滨湖区生物医药研发服务产业园

微信公众号:上海翼和生物





https://blog.sciencenet.cn/blog-3140696-1317225.html

上一篇:多重PCR扩增建库技术助力基因编辑后代高通量基因型鉴定
下一篇:群体遗传结构分析软件系列(2)
收藏 IP: 139.227.237.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 23:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部