赖江山的博客分享 http://blog.sciencenet.cn/u/laijiangshan 生态、统计与R语言

博文

用于分解广义混合线性模型的R2的包glmm.hp发布于R官网CRAN

已有 5504 次阅读 2022-1-25 16:09 |系统分类:科研笔记

       生态学的数据大部分取样于地球表面,常常具有时空属性或复杂的嵌套和层次结构,导致数据点之间不独立的问题普遍存在,传统的普通线性模型对类数据并不适用。线性混合效应模型(LMM)及广义线性混合效应模型 (GLMM) 允许我们明确地对这种数据中的非独立性进行建模,因此在生态学研究中越来越受欢迎(Harrison etal. 2018; Silk, Harrison & Hodgson 2020)。R语言的普及也为(G)LMM使用起了极大的促进作用,通过文献调查表明,实现(G)LMM的lme4包和nlme包也分别是近十多年生态学研究中使用频次排第一和第三的R程序包(Lai et al. 2019)。

对于普通的线性回归,R2给出了模型中响应变量方差被解释变量解释的比例,是评估模型拟合度的直观度量。不幸的是,(G)LMM 的R2获取是不容易的事情。对于具有正态性的残差和没有随机效应的普通线性模型,很容易通过计算残差的方差获得R2但 (G)LMM的情况大为不同,除了与普通的广义线性模型(GLM)一样具有非正态的残差之外,还有一个显著的特点就是(G)LMM具有明显的分层结构(即随机效应),无法确定用哪个层次的残差来计算R2(Nakagawa & Schielzeth 2013)。正因为这个不确定性,也导致(G)LMM的R2计算方案也是层出不穷(Cox & Snell 1989;Nagelkerke 1991; Gelman & Pardoe 2006; Nakagawa & Schielzeth 2013)。近年来获得最多支持是 Nakagawa &Schielzeth (2013) 提出的两个互补(G)LMM的R2由固定效应解释的marginal R2以及由固定效应和随机效应一起解释的conditional R2Nakagawa et al. (2017) 将他们的 R2 从原来的高斯分布、泊松分布和二项分布拓展到负二项式分布和gamma分布的GLMM模型。Nakagawa R2在多个R的包里能实现,常用的有MuMIn包(Bartoń 2020)和piecewiseSEM (Lefcheck 2016) 等。根据Methodsin Ecology and Evolution期刊官网统计,Nakagawa & Schielzeth (2013)的文章也成为该刊自2010年创刊来引用频次最高的文章(https://besjournals.onlinelibrary.wiley.com/journal/2041210X)。

如果(G)LMM 的固定效应是多个解释变量因子,那么marginal R2是所有固定效应因子一起解释的比例。当一个模型包含多个解释变量时候,研究人员通常会对每个变量的相对重要性感兴趣(Healy 1990)。相对重要性可以从每个变量对模型拟合度(比如R2)的贡献比例来确定(Johnson & LeBreton 2004)。 这不仅适用于普通多元线性回归,同样适用于包含多个固定效应因子的(G)LMM。但是,当解释变量存在相关时候,由于相关性,不能简单地将模型R2分为每个变量独立的部分,这意味着变量之间具有共享的R2,而共享的R2到底是哪个解释变量解释的实际上从数学上无法辨别的。不幸的是,由于生态学数据通常来自野外观测,因此错综复杂的环境因子的之间共线性是一种普遍的现象(Graham 2003),因此,给每个解释变量准确的分配R2是一个挑战。

我们近期在MEE上发表的文章提出的“平均分配”共享R2方案(也是经典的“hierarchical partitioning”新诠释), 并开发了rdacca.hp包来用于普通多元线性回归和典范分析的R2的分配(Lai et al. 2022)。“平均分配”的好处是可以获得每个解释变量的单个贡献(individual contribution),而这些单个贡献的总和刚好也得等于总R2,这种优良特性统计学上称为满贡献率(full contribution)。我们认为同样算法可以用来分配(G)LMM固定效应的marginal R2。因此,我们也开发一个新包glmm.hp来分配 (G)LMM的marginal R2给每个固定效应因子,进而判断固定效应因子的相对重要性,这样每个固定效应因子所分配的R2刚好也等于总的marginal R2。需要要声明的是,包是开发出来的,分解的算法可以参考MEE的文章,但是这样分解方案是否具有生态学意义,恐怕是需要各个用户自己判断了,但算法的依据,可以引用我们MEE的文章(Lai et al. 2022)。

新开发的glmm.hp是基于MuMIn包的 r.squaredGLMM函数,也就是说只要能通过r.squaredGLMM函数获取marginal R2的(G)LMM模型,均可以用glmm.hp获取每个固定的效应所分配的marginal R2。目前glmm.hp包可以从R官网(CRAN)或Github(github.com/laijiangshan/rdacca.hp)安装。主函数是glmm.hp()所需要的参数非常简单,从lme4包出来的"merMod"类型对象或是nlme包出来的"lme"类型的对象即可。还有一个作图泛函数plot.glmmhp可以做柱状图。欢迎大家下载安装并使用,希望能反馈给我运算的结果是否符合你们的预期。我期待大家的反馈,也是鼓励我进一步完善包,我的邮箱lai@ibcas.ac.cn或QQ 185756911。

以下是案例代码:

install.packages("glmm.hp")

library(glmm.hp)

library(lme4)

mod1<- lmer(Sepal.Length ~ Petal.Length + Petal.Width +(1 | Species), data =iris)

r.squaredGLMM(mod1)

glmm.hp(mod1)

plot(glmm.hp(mod1))

 

 参考文献

  1.  Bartoń,K. (2020) MuMIn: Multi-Model Inference. R package version 1.43.17.

  2. Cox,D.R. & Snell, E.J. (1989) The Analysis of Binary Data, SecondEdition edn. Chapman and Hall, London: .

  3. Gelman,A. & Pardoe, L. (2006) Bayesian measures of explained variance and poolingin multilevel (hierarchical) models. Technometrics, 48, 241-251.

  4. Graham, M.H. (2003) Confronting multicollinearity in ecologicalmultiple regression. Ecology, 84, 2809-2815.

  5. Harrison,X.A., Donaldson, L., Correa-Cano, M.E., Evans, J., Fisher, D.N., Goodwin, C.E.,Robinson, B.S., Hodgson, D.J. & Inger, R. (2018) A brief introduction tomixed effects modelling and multi-model inference in ecology. Peerj, 6.

  6. Healy,M.J.R. (1990) Measuring importance. Statistics in Medicine, 9, 633-637.

  7. Johnson,J.W. & LeBreton, J.M. (2004) History and use of relative importance indicesin organizational research. Organizational Research Methods, 7, 238-257.

  8. Lai,J.S., Lortie, C.J., Muenchen, R.A., Yang, J. & Ma, K.P. (2019) Evaluatingthe popularity of R in ecology. Ecosphere, 10.ecs2.2567

  9. Lai,J.S., Zou, Y., Zhang, J.L. & Peres-Neto, P.R. (2022) Generalizinghierarchical and variation partitioning in multiple regression and canonicalanalyses using the rdacca.hp R package. Methods in Ecology andEvolution.<DOI:10.1111/2041-210X.13800>

  10. Lefcheck,J.S. (2016) PIECEWISESEM: Piecewise structural equation modelling in R forecology, evolution, and systematics. Methods in Ecology and Evolution, 7, 573-579.

  11. Nagelkerke, N.J.D.(1991) A NOTE ON A GENERAL DEFINITION OF THE COEFFICIENT OFDETERMINATION. Biometrika, 78, 691-692.

  12. Nakagawa, S. &Schielzeth, H. (2013) A general and simple method for obtaining R2 fromgeneralized linear mixed-effects models. Methods in Ecology andEvolution, 4, 133-142.

  13. Silk, M.J., Harrison,X.A. & Hodgson, D.J. (2020) Perils and pitfalls of mixed-effects regressionmodels in biology. Peerj, 8.



 

 




https://blog.sciencenet.cn/blog-267448-1322614.html

上一篇:rdacca.hp包的文章在线发表Methods in ecology and evolution
下一篇:一个简洁的子集获取的代码
收藏 IP: 159.226.89.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 14:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部