yzhlinscau的个人博客分享 http://blog.sciencenet.cn/u/yzhlinscau

博文

基于植物试验的GBLUP模型之Echidna篇

已有 225 次阅读 2020-5-20 10:18 |个人分类:Echidna|系统分类:科研笔记

使用与基于谱系预测相同的混合模型方程,但用基于分子标记的G矩阵代替A矩阵来计算基因组估计育种值(genomic estimated breeding values,GEBV),这种方法就称为GBLUP。相对地,基于谱系的方法就可以称为ABLUP。GBLUP也是基因组选择方法之一。

采用《动植物育种遗传数据分析》书中的玉米试验数据为例,数据读取代码如下:

!RML !DEBUG !LOG !rename !ARGS 1  2 !OUT  !WORK 8
Title: GBLUP.
#multivariate GBLUP model from raw data.  
# MAIZE S1 lines
# env , rep , plot , line , height , dts
# CLY_2015 ,1,1, 12FL0022-5 ,160,65
env  !A
rep  !I
plot  !I
line  !P  #associate with pedigree
height
yield
!FOLDER D:\Isikcodes\data2\
Maize_S1_pedigree.csv  !SKIP 1 #pedigree file 
Maize_S1_G.grm !PSD #G matrix
Maize_S1_traits.csv  !SKIP 1  !CONTINUE !MAXIT 35  !MVREMOVE !DDF -1  !DOPART $A


基于谱系ABLUP的模型代码如下:

// Ablup
!PART 1 #univariate IDV models
yield ~ mu env !r  rep.env nrm(line) nrm(line).env
   residual at(env).units


运行结果如下:

// ablup results
 8 LogL= -4773.22      1409 DF
 
   Akaike Information Criterion   9564.44 (assuming 9 parameters).
   Bayesian Information Criterion   9611.70
    
               Analysis of yield                          Wald F statisticsSource of Variation           NumDF     DenDF     F-inc              P-inc  mu                               1             4606.03 env                              5               22.56
 Model_Term   Order  Gamma   Sigma   Z_ratio  %C 
 rep.env     12   7.05639  7.05639   1.25   0 P     
 nrm(line)    507   160.314  160.314   8.51   0 P 
 nrm(line).env   3042 effects 
 env         6   34.7256  34.7256   2.59   0 P     
 units      342   203.691  203.691   8.48   0 P     
 units      338   152.637  152.637   8.20   0 P     
 units      321   248.408  248.408   9.20   0 P     
 units      138   216.661  216.661    6.44   0 P     
 units      138   221.671  221.671   6.78   0 P     
 units      138   261.619  261.619   6.85   0 P      
 rep.env    12 effects fitted.  
 nrm(line)   507 effects fitted, 244 were zero.  
 nrm(line).env 3042 effects fitted, 2069 were zero. 
 Notice: LogDet(GRM) was Zero! 
 Finished: Sat May 16 11:19:07 2020  LogL Converged


基于标记GBLUP的模型代码如下:

// Gblup
!PART 1 #univariate IDV models
yield ~ mu env !r  rep.env grm(line) grm(line).env
   residual at(env).units



运行结果如下:

// gblup results
    9 LogL= -4764.21      1410 DF
   
 Akaike Information Criterion   9546.42 (assuming 9 parameters).
 Bayesian Information Criterion 9593.69
    
          Analysis of yield
                         Wald F statistics
Source of Variation           NumDF     DenDF     F-inc              P-inc
 mu                               1             7161.89
 env                              5               25.13
 
 Model_Term                     Order     Gamma         Sigma     Z_ratio  %C
 rep.env                           12   6.26223       6.26223        1.18   0 P   
 grm(line)                        508   258.058       258.058        7.44   0 P   
 grm(line).env                       3048 effects
 env                                6   17.3738       17.3738        2.17   0 P   
 units                            342   212.400       212.400       10.37   0 P
 units                            338   175.741       175.741       10.02   0 P   
 units                            321   276.711       276.711       10.74   0 P   
 units                            138   233.282       233.282        6.99   0 P   
 units                            138   244.034       244.034        7.21   0 P   
 units                            138   280.636       280.636        7.30   0 P   
  rep.env                                 12 effects fitted.
  grm(line)                              508 effects fitted.
  grm(line).env                         3048 effects fitted, 1 singular.
 Finished: Sat May 16 11:03:19 2020  LogL Converged



对于ABLUP模型和GBLUP模型的结果可知,本例中,GBLUP模型估计的加性方差line由ABLUP的160.314提高到258.058。此外,各环境方差项稍有不同。

与ABLUP一样,有表型记录的个体基因组育种值的预测可靠性将高于无表型的个体。

使用Echidna进行GBLUP分析,其方法与ASReml类似,同样对于标记数据的样本ID如何传递到表型数据的样本ID,两者需要一致的,而实际中,可能会不一致。一种简单的处理方式,把标记数据ID先单独提取,创建谱系数据,有已知亲本的填上亲本代码,所有未知亲本的均设为零或NA,再利用synbreed包或者其它方法,结合这份谱系,生成G矩阵,最后通过synbreed包输出G矩阵以供Echidna或ASReml使用。这样,就可参照本例,数据文件的摆放次序:谱系文件,G矩阵文件,数据文件。

一般来说,植物基因组选择比动物的要复杂,由于植物受自然环境的影响较大,而且不同环境往往差异很大,对于林木更是如此。因此,植物GBLUP模型,除了要关注随机效应项的方差结构外,更要注意误差项的方差结构。此外,还要注意表型数据的精准测定。其余的,基本上就是基因组选择的共性问题,比如:遗传结构、标记数量、统计模型、交叉验证等等。

总的来说,基因组选择在植物尤其林木育种领域的应用潜力很大。将来,对于所有作物,基因型分型可能会成为一种常规手段,同时也意味着数据分析将越来越重要,且也越来越专业。

一个好消息:Echidna软件,现在国内也可以在官网(https://www.echidnamms.org)直接下载了!




http://blog.sciencenet.cn/blog-1114360-1234034.html

上一篇:用R分析COVID-19流行病学[译文]

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-5-28 01:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部