doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

群体遗传结构分析软件系列(4)

已有 3105 次阅读 2021-12-23 17:15 |系统分类:博客资讯

群体遗传结构:是指群体中存在分层的现象,即在群体中存在多个亚群。亚群的混合会增加群体的复杂程度,使得对遗传连锁不平衡的评估偏高。因此,在基于连锁不平衡进行定位的关联分析中,需要对群体结构进行分析,将其作为协方差,校正群体分层造成的假阳性关联结果。

翼和生物往期文章介绍了群体遗传结构分析软件,Q-plot绘制过程中,应用最为广泛的软件是Distruct1.1。该软件对图中亚群标注非常方便。一起来看一下这款软件的使用方法。

所需文件列表

a.jpg

文件格式转换技巧

有些老师看到这一个个奇怪的文件后缀就眼晕,其实很简单,将数据保存在txt文件中,然后将文件扩展名修改为需要的后缀就可以了。需要注意的是,文件夹选项(文件图片查看图片文件扩展名)是否选择了显示文件后缀。有的老师修改了文件后缀也无法运行,这是因为文件夹选项未选择显示文件后缀,实际上只是修改了文件名,文件仍然是txt文件,所以软件仍然无法运行。 

b.jpg

个体Q矩阵:***.indivq文件

***.indivq文件是Clumpp2.0软件合并后的Q矩阵,可以直接将outfile文件的后缀修改为indivq即可。第1列数字编号,第2列样本编号,第3列基因型数据中缺失标记数,第4列亚群编号(例图中62950等),第5列为“:”(注意冒号的格式为英文输入法下的:),第6列以后为样本对应各亚群的Q值矩阵。平时查看文件内容可以用写字板打开。

个体根据种群(预设群体、品种/品系)的代码自动分组归类,图中个体从左到右的顺序与输入文件中个体的从上到下的顺序相同。

c.jpg


群体Q值文件:***.popq文件

Popq文件每行代表一个预设群体的信息,第一列数字编号为预设群体的数字代码,其后是一列冒号。请注意冒号格式,需要英文输入法的冒号,请不要在中文状态下输入冒号!最后一列为预设群体的个体数目。冒号和最后一列之间为cluster1clusterK的群体Q值,为对应cluster的群体内个体Q值的均值。可excel进行格式整理,另存为txt格式文件,然后再将文件后缀改为.popq

图片

预设群体标注文件:***.languages和***.names

这两个文件可以对Q plot进行预设群体(population)的标注。***.languages中的标注信息会显示在图片上方;***.names中的标注会显示在图片下方。通常预设群体的编号名称显示在图片下方,对预设群体的注释信息显示在图片上方。例图中的505157等均为预设群体数字编号。如果没有预设群体,这两个文件可以省略。

Drawparams文件中,如果将print label below/atop设置为1,程序将搜索infile label below/atop指定的文件(***.names/***.languages)。默认值是将群体代码(编号)打印为标签。如果找到该文件(***.names/***.languages),文件行上的群体的输入顺序将用于群体图形的左右顺序。如果图形上下都需要标注,请将两个文件的群体输入顺序保持一致。

d.jpg

e.jpg

定义分组颜色***.perm文件

最佳K值的数值有多大,颜色种类就要有多少。当颜色不够用时,可以在文件夹ColorBrewer中选用。

这个文件还决定了垂直集群的展示顺序和颜色,简单讲就是每个line的几个cluster展示顺序及代表颜色。Drawparams中指定的infile cluster perm文件,程序会自动查找***.perm文件,并根据文件中cluster+颜色的排列顺序展示在图片中。颜色英文单词不区分大小写。 

图片Drawparams设置

参数文件也是必需文件之一,需要根据实际的文件名以及个体数和预设群体数进行修改参数。其中还可以设置图片的一些参数,一般采用默认值即可。

f.jpg

软件运行

将整理好的文件放在软件存储文件夹下,选择合适系统的exe文件,双击,即可获得结果文件***.ps,该文件可以在作图软件Adobe_IllustratorAI)中打开,并且进行编辑,另存为PDFjpgtif等格式的图形文件。

g.jpg

最后生成的Q plot效果

h.jpg


服务热线:021- 33559491    021- 33559492

电话或微信:18516561739

网址:http://www.biowing.com.cn/       邮箱:xiaoly@biowing.com.cn 

地址(总公司):上海市松江区龙腾路1015弄中星创意园2号楼502

实验基地:江苏省无锡市滨湖区生物医药研发服务产业园

微信公众号:上海翼和生物




https://blog.sciencenet.cn/blog-3140696-1317873.html

上一篇:群体遗传结构分析软件系列(3)
下一篇:SNP——动植物健康的密码
收藏 IP: 211.97.130.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 17:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部