育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

TASSEL 关联分析软件 起步教程

已有 18551 次阅读 2016-3-16 11:15 |个人分类:翻译博客|系统分类:科研笔记

TASSEL 关联分析软件 起步教程

目录

1       下载安装软件... 1

2       导入数据... 1

3       处理数据... 3

3.1 清洗数据... 3

3.2 主成分分析... 5

3.3 用基因标记估计系谱... 5

3.4 用一般线性模型分析... 5

3.5 用混合线性模型分析... 5


1、  下载安装软件

下载地址:http://tassel.bitbucket.org/

这里下载的是win64为系统,截图如下:

01


安装成功后,打开菜单如下:

02


2、  导入数据

数据下载地址:http://tassel.bitbucket.org/

截图如下:

03


打开dataload,选择Make Best Guess

04


选择几个示例数据:

05


打开后的数据如下

06


里面包括系谱数据、性状数据和基因型数据(snp)。

3、  处理数据

3.1 清洗数据

选中mdp_trait

07

然后选择:Data中的Transform Phenotype

08


可以对数据进行转化、标准化等操作,注意,要先对数据进行选择,然后再进行操作:

09


也可以对缺失值的数据进行删除,点击imputNumerical impute,就会生成没有缺失值的数据,这只是缺失值的不同替换方法。

10


11



3.2 主成分分析

主成分分析(PCA)是一种统计方法,它可以将相互关联的变量转化为独立的主成分(PC),第一种成分包含最多的组分,其它依次降低。另一个主成分的作用可以用标记的主成分来代表群体结构。这种方法比最大似然法节省时间。因为大部分的分子标记都是字符,需要先将其转化为数值,然后再进行主成分分析,一般将纯合的标记用0代替,另一个纯合子用2代替,杂合的用1代替。PCA要求变量不能有缺失值,因此,在进行主成分分析时,需要对数据进行清洗,去除缺失值。

去掉频率小于0.05的标记,可以选择Data,选择Site,然后在最小频率的框中键入0.05,然后选择Removeminor SNP status,然后点击Filter,进行过滤,模型如下:

12


选择PCA,然后选择5个主成分(默认项),点击确定,就会生成结果,模型如下:

13


14


结果如下:

15


3.3 用基因标记估计系谱

利用主成分分析可以判断群体的结构特征,但是如果利用系谱信息,这种结果会更加准确。可以用基因型数据生成系谱信息,首先选中基因型数据,点击Analysis,选择Kinship

16


结果如下:

17


3.4 用一般线性模型分析GLM

下面我们用GLM模型来分析示例数据,mdp_genotype.hmp.txtsnp数据,里面有3093个标记,281个玉米自交系,另一个文件是mdp_population_structure.txt,里面是282个玉米自交系的群体结构,还有一个是mdp_traits.txt,里面是282玉米自交系的表型数据。

首先对基因型数据进行过滤,去掉频率小于0.05的,最小的数目是150,点击过滤,生成过滤后的基因型数据:

18


然后对数据进行个过滤,选择开花期dpoll这个性状,

19


进行协变量选择,即选择群体结构的文件,这里我们去掉Q3,数据如下:

20



合并数据,将这三个过滤好的数据,选中进行合并,点击Data Intersect Join

21


数据合并如下:

22


然后选中合并后的数据,用analysisGLM来进行分析

23


24


运行结果如下:

25


QQ图:

26


P-value值:

27


3.5 用混合线性模型分析

混合模型需要添加系谱矩阵

28


点击run

29


结果:

30


相关图形:

31


32




生物统计与数量遗传学公众号




http://blog.sciencenet.cn/blog-2577109-962946.html

上一篇:联合方差分析的误差方差齐次性检测 R语言程序
下一篇:农业上对不同品种照相,按照品种名称批量改变相片名称的方法

1 乔大河

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-1-21 02:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部