博文

群体结构分析之Structure 篇完整版（By Raindy）

已有 67656 次阅读 2016-4-4 16:46 |个人分类:软件教程|系统分类:科研笔记| Structure, Raindy, 群体结构

【絮语】

群体进化分析过程，经常要涉及群体结构分析，其中Structrue是分析群体结构组分的常用软件，本博文详细图解Structure分析的相关细节，首发于本人QQ空间（http://user.qzone.qq.com/58001704），如需转载，请保留作者信息，谢谢！

【相关软件】
数据格式转化：GenAIEx、xmfaconvertor、xmfa2struct

群体结构分析：Structrue
最佳K值的确定：Structure Harvester (在线工具)
Clusters 重复抽样分析： CLUMPP、CLUMPAK
图形化显示结果：distruct
相关软件可以访问Structure官方网站下载： http://pritchardlab.stanford.edu/structure.html

【操作流程】

1. 不同数据源格式转换
　　不同的分析软件对输入格式都有一定的要求，Structure支持多种数据源，如：SSR数据、SNPs、序列数据等。除了序列数据外，大多数数据可以利用Excel的一个插件GenAIEx进行转换，此类教程网上较多，本文不再赘述；对于纯序列类型转为Structure格式的教程尚未多见，故本文以纯序列为数据源进行示例图解说明。

（1）在Clustalx中打开比对好的序列文件，将其另存（Save sequences as）为Clustal格式，如下图所示，完成得到一个*.aln文件名；

（2）启动xmfaConvertor软件，将标签切换为“File”上，点击“In File”按钮，选择上一步转好的*.aln文件，并选择输出文件路径，设置完毕，点击OK即可，转换完成程序界面的左下角会提示“Successfully Done”说明序列格式转为XMFA格式（eXtended Multi-Fasta Alignment ）成功。

（3）进一步将XMFA格式转换为Structure支持的格式（扩展名不限），双击运行批处理文件xmfa2struct.bat，输入文件xmfa文件名回车（如：avr3a.xmfa），然后输入要输出的文件名，如示例的avr3a.str (扩展名可以任意，如：txt,，但推荐使用str)；

当转换完成后，命令行界面会提示All done，此时*.xmfa所在的目录下会生成一个*.str文件，如下图avr3a.str；

（4）修改*.str的部分细节，此步可选，但建议处理。打开Excel程序，“打开”选择*.str前，先将文件类型改为所有文件（*.*），然后待定上一步的*.str，出现文本导入向导。向导第1步中，选择文件类型为“分隔符号”方式，如下图所示：

在向导第2步中，勾选中“空格”，如下所示：

至此，Excel已经完成打开*.str文件操作，如下图所示，默认转换的第一行会有不同的数字显示，相当于其他遗传标记中的Marker名称。该行可以保留，但在新建Structure方案设置参数时，对应处的选项也要相应设置。个人习惯将其删除，该行主要指示不同的Loci位点数。

当序列数据的个体来自不同群体时，可以在Excel的第二列插入一行，标记群体号，建议用纯数字表示，如：群体A标记为1、群体C标记为3、如此类推...

2. 群体结构分析
2.1 运算前检查数据
运行Structure主程序，在“File”->“Open Data File”菜单打开上一步得到的数据文件*.str。这个步骤主要核对数据一些信息，横向为位点数（注意：这里是位点数，不含个体那一列），纵向显示为个体数（行）等。如果能确保向导中的数据信息设置正确，则该步可以跳过。如下图所示，示例数据在Data界面显示位点数显示为18，即有18列（其中第1列在未定义为群体编号前也被默认示为一个位点，需要在向导第三步进行标记）。

2.2 “New Project”新建方案，根据向导提示设置参数

（1）出现方案向导，第一步是方案名称、保存目录及目的数据文件等信息：

（2）向导第二步是数据的具体信息，包括个体数、倍体数、位点数（最易设置错误）、缺失数值（有Gap时该处填-9，如没Gap时，可以填 0）：

（3）向导第三步是输入数据的行标记，示例数据除第一列外的行内容都是具体数据，也没有Marker标记，故此处可以留空不勾选：

（4）向导第四步是输入数据的列标记，示例数据第1列为个体名称，第2列为群体标记，故勾选向导中的前两项。此时可以点击“Show data file format”弹出窗口显示110行19列（行数为个体数，列数19列需要扣除前两列）

（5）检查数据后，点“Finish”，此时所设置的参数以确认框的方法显示。

（6）如果设置无误，可以点击“Proceed”进行后续处理。此时方案数据也会显示数据信息。

2.3 Structure 运算参数设置

“New”新建一个参数设置名称，如示例为Avr3a，然后设置 Run Length，Burin Period=200000，Burin之后的链长=1200000(总链长为两者之和)：

完成后，即可“Start a Job”，设置K值（预计的Clusters数据，比如2-7，一般不多于Pop总数）和重复次数5-10后，可以“Start”启动分析直至计算完成：

当出现“Job is Completed”提示，即说明程序完成结束。

2.4 打包结果文件
结果文件在方案保存目录下的“Results”，此时可以该文件夹以Zip格式进行压缩，备于下一步的Structure Harvester 分析。

3. 确定最佳K值
Structure 运算结果Results.zip 需要提交到在线工具Structure Harvester 以判断群体的Clusters数（即最可能的K值）。
3.1 上传结果文件
在浏览器中输入Structure Harvester服务器的网址（http://taylor0.biology.ucla.edu/struct_harvest/），选择结果文件，点击网页的“Harvest！”按钮即可自动开始分析：

3.2 结果查看及最佳K值判断
分析完成后，网页上给出两种方式推断最佳K值的图示，同时下方一个表格输出，包括K值、Runs重复数等，其中最佳K值那一行会以黄色突出显示，如下图所示，表明示例数据群体的最佳K值为3。

3.3 下载结果数据
Structure Harvester分析得到的图表以压缩包形式提供下载，可以点击“download”即可下载。

对于推断的最佳K值，需要下载两个CLUMPP文件，indfile、popfile为多次runs得到个体和群体的Q-matirx数据，该数据用于后续的重复抽样分析。

4. 重复抽样分析Clusters
将上一步获得的Kx.indfile和Kx.popfile文件复制到CLUMPP目录下后，用记事本类的工具（如：Notepad++）打开该目录paramfile文件，需要修改以下几个关键之处：
（1）DATATYPE：读取文件类型，0表示读取*.indfile，1表示读取*.popfile。示例数据演示为K3.popfile文件，此时DATATYPE值为1；
（2） POPFILE/INDFIEL：群体文件和个体文件的名称，本例为K3.popfile；
（3）OUTFILE：输出群体或个体文件的名称，本例为K3_p.outfile；
（4）MISCFILE：输出杂项文件，即输出的一些概要信息，可以不设置；
（5）K：即Cluster数，本例最佳K为3；
（6）C：个体总数或群体总数（注意与DATATYPE对应相关，当DATATYPE为主时，C表示群体总数；反之为个体总数）

（7）R：即Runs数，Structure运算某个K时的重复运行次数，本例为10；

Raindy 注：默认的搜索方法是Full search，如果数据量过大，建议使用贪婪法（将M值改2，当K大于15时，M=3）

CLUMPP参数设置完毕保存后，即可双击运行CLUMPP，出现如下图界面：

当出现“Press Return to exit”时，表示重复抽样运算结束，目录下生成相应的输出文件，如本例的K3_p.outfile

同样方式，重新修改参数文件paramfile文件，修改对应的参数，注意下图红色标记之处的差别：

得到CLUMPP重复抽样得到的群体和个体的Q-matrix文件：K3_i.outfile和K3_p.outfile 用于后续distrut绘图。

5. 图形化显示结果
将上一步得到的K3_i.outfile和K3_p.outfile 复制到distruct 目录下，用于生成最终图形。
（1）casia.indivq　　个体的Q-matrix文件，可直接用上一步的K3_i.outfile；
（2）casia.popq　　群体的Q-matrix 文件，可以用上一步的K3_poutfile；
（3）casia.names　　Structure结果图示下方的名称
（4）casia.languages　　Structure结果图示上方的名称
（5）casia.perm　　Structure结果图示中不同Cluster对应的颜色

（6）drawparams　　distruct绘图的参数设置，定义前5个文件后，还需要修改K（最佳K值）、NUMPOPS（群体数）、NUMINDS（个体数）和输出文件名称（OUTFILE），如下图所示，输出文件为*.ps 文件，即Postscript文件：

上述6个文件修改完成，可以双击批处理文件distructWindows1.1.bat 即可自动绘图，直至出现程序路径时，输出文件K3.ps已经生成在目录内，可以用Adobe Illustrator（AI）转换为PDF文件。

raindyok的个人博客分享 http://blog.sciencenet.cn/u/raindyok

博文

群体结构分析之Structure 篇完整版（By Raindy）

当前推荐数：3 推荐人：张余杰 刘乐乐 席辉辉

该博文允许注册用户评论请点击登录评论 (17 个评论)

高芳銮

全部作者的其他最新博文

全部精选博文导读

相关博文

raindyok的个人博客分享 http://blog.sciencenet.cn/u/raindyok

博文

群体结构分析之Structure 篇完整版（By Raindy）

当前推荐数：3 推荐人： 张余杰 刘乐乐 席辉辉

该博文允许注册用户评论 请点击登录 评论 (17 个评论)

高芳銮

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：3 推荐人：张余杰刘乐乐席辉辉

该博文允许注册用户评论请点击登录评论 (17 个评论)