育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

农业鉴定数据自动化处理流程

已有 4030 次阅读 2016-10-8 10:49 |个人分类:农学统计|系统分类:科研笔记

想要参加相关学习和培训,想要得到相关资料和代码,添加微信joinVSNC为好友,拉您进入数据分析交流群。


现代农业鉴定数据的特点:

1、  规模大,随着育种规模的增加,测试品种的数目越来越大(大于1,000个),地点越来越多(大于10个)

2、  不同阶段试验设计不同,初级阶段测试品种多,但地点内无重复或者重复少,用多点代替重复在育种中有实际的价值;高级试验品种数目少,有重复。

l  一般初级试验的目的是淘汰劣质品种,试验设计一般为增广试验设计(中间加对照,对照有重复,品种无重复)或者增广格子试验设计,主要依靠对照来估计区组的效应,在一定的成本下,这种试验设计效率最高,因此得到广泛应用。

l  高级试验的目的是选择优良品种,重点考察品种的适应性和丰产性,主要有完全随机区组(RCBD)和增广格子试验设计(alpha-lattice)。

3、  统计分析模型重要,主要有两点决定:

l  在规模小的情况下,育种家通过对种质、表型、抗性等观察直接选择,产量数据是一个参考。在规模比较大的情况下,这种能力大大削弱,所以育种家必须依靠数据,而原始数据到结果呈现就是统计模型在起作用,因为这不再是一个平均数的年代,好的模型会事半功倍。

l  育种的选择不是一个显著性的问题,而是一个排序的问题。好的品种不仅仅是产量最高,还要结合品种的稳定性和适应性,因此是一个次优的问题。在统计模型结果排序和平均数结果排序可以看出,排名最高的品种在两者之间都是最高的,但前30名排序变化就比较大,不同的模型,排序差别也比较大。如何选择模型没有定论,需要看模型对数据拟合的程度。

l  实际的鉴定数据,数据缺失普遍存在,误差比较大,而且地点间差异比较大,方差异质性普遍存在,常规的统计(比如平均数、方差分析、线性回归分析等)不适合数据的分析要求,学术界普遍认为混合线性模型非常适合田间鉴定数据(MET)的分析。


Breeding View处理鉴定数据的流程图:


Breeding View这款软件主要将数据分析流程化,将数据导入进去之后经过数据的清洗、异常值的提出、模型的比较分析选择、最终给出报表的形式。结果分为品种的稳定性(Finlay-Wikinson AMMI)、品种的适应性(GGE Biplot)和品种稳定性系数,经过对不同混线性模型方差协方差的结果评价(依据AICBIC),最终选择最优的模型,并给出品种的排名、BLUE值和BLUP值。


问题来了,如何更灵活的选择模型呢?

以上是自动化分析软件的结果,如果想要系统的接受相关的统计理论和学习MET数据分析方法呢?

1、  参加ASReml培训会,会有空间分析(即田间数据加上行列信息的分析)和MET常用模型的分析(比如FADiagonalIdentityUnstructed等)以及模型的比较和选择。


2、  参加GenStat培训会,会有实验设计、空间分析、品种稳定性分析(AMMIGGE Biplot)、MET(各种模型)和品种适应性(GGE Biplot)的讲解。



3、  如果不关注模型本身,而只想要分析结果的解读和流程化分析,那就参加BMS培训会,里面会有Breeding View在自动化分析田间鉴定数据的方法讲解和结果解读。


最新的培训通知,关注下面公众号,查看最新培训。



学习交流QQ群:398671275



https://blog.sciencenet.cn/blog-2577109-1007371.html

上一篇:asreml R语言 数量遗传学 数据分析
下一篇:混合线性模型软件包的介绍
收藏 IP: 111.202.84.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 17:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部