|||
基于巢管膜翅目数据漫谈线性模型分析
云南农业大学、中国科学院动物研究所联合培养博士研究生:郭鹏飞
在一个理想的连续世界中,任何非线性的东西都可以被线性的东西来拟合(参考Taylor Expansion公式),所以理论上线性模型可以模拟物理世界中的绝大多数现象。而且因为线性模型本质上是均值预测,而大部分事物的变化都只是围绕着均值而波动,即大数定理 (https://www.cnblogs.com/LittleHann/p/10498579.html)。
线性模型的一些区别:
LM(线性模型) | 这种(最简单的)模型假设误差(errors)(即残差(residuals))是正态分布的,方差是同方差(homoscedastic)的(有时也可称为是同质的)。 |
GLM(广义线性模型) | 通过允许特定的误差分布(即“族”,例如计数数据(离散型数据)的泊松(poisson)或份额/比例的二项式(binomial)),这个模型族是线性模型的一般化。除此之外,它们是相当相似的,除了测试统计量的计算不同的误差族。方差应该是同方差的(在参数统计中总是如此) |
GLMM(广义线性混合模型) | 这是GLM的混合模型,因为模型族允许指定的误差分布。关键的区别是“混合”。这意味着可以指定随机效应。固定效应和随机效应的区别就在于如何看待参数。对于固定效应来说,参数的含义是,自变量每变化一个单位,应变量平均变化多少。而对于随机效应而言,参数是服从正态分布的一个随机变量,也就是说对于两个不同的自变量的值,对应变量的影响不一定是相同的。所以说混合线性模型,是指模型中既包括固定效应,又包括随机效应的模型(https://www.zhihu.com/question/27938684/answer/110552207 来源:知乎)。当你有嵌套数据时,随机效应非常有用,因为在计算方差时数据结构是保留的。嵌套数据在生态学中很常见,例如,当每个样方有多个观测点时。与其他样方相比,每个样方内的观察结果有可能更相似。通过这种方式,随机效应(本例中的样方)可以解释仅由样方同一性引起的方差(例如,样方之间所有未测量的环境变异性,不受固定效应影响)。参考figure 1 (Bates, Maechler, Bolker, & Walker, 2015) |
数据介绍:
响应变量:节肢动物的物种丰富度与多度
解释变量:固定效应:树种丰富度,海拔,坡度,北向指数,东向指数,样地。随机效应:样方。
严格地说,丰富度和多度是计数数据(数据值只能是整数:0,1,2…,例如没有1.2种)。计数数据的误差来自泊松(poisson)分布,因此统计上最适合计数数据的误差分布族是泊松(poisson)(O'Hara & Kotze, 2010)。请注意,真实计数数据(特别是多度)往往有较强的过度离散趋势(Harrison, 2014),即数据平均值和分布的方差高于预期。当模型中的许多变量变得显著时,过度离散(Overdispersion)会导致假参数估计和类型一错误(假阳性)。在常规的GLM中,你可以通过将“剩余偏差度(residual deviance)”除以“剩余自由度(residual degrees of freedom)”来检验这一点。这个商(“dispersion factor”的近似值)一般不应大于1.5。当它较大时,表明数据存在过度离散,此时模型参数和p值不可靠。有很多方法可以解释过度离散,在常规的GLM模型中,可以使用“quasipoisson”误差。这个误差族为过度离散拟合了一个单独的参数,从而解决该问题。在GLMM中检查过度离散就不那么直接了。在我看来,最适合的方法是利用过度离散测试(r-package DHARMa)。我们可以通过拟合观测级(observation-level)随机效应来解释过度离散(Harrison, 2014)。
关于物种丰富度和多度的正态分布和泊松(poisson)分布的问题,我认为更重要的是看看各自模型的残差。如果残差是正态分布而不是偏斜的,我认为使用LM来处理丰富度和多度数据就可以了,前提是如果只需要解释数据,而不是从数据预测到其他数据(这很重要!)
要点及注意事项:
1. 明确你的科学问题,即你要使用的响应变量(response variable):多样性指数等连续性变量一般(但不一定)是正态分布的(可直接使用LM去拟合模型)。而多度和物种丰富度等离散型变量(计数型数据)可能是非正态分布(可考虑使用GLM和GLMM去拟合模型)。
2. 为了提高模型残差的正态性和方差齐性,我们通常会将使用到的连续性的解释变量(explanatory variable)进行标准化处理(mean = 0, s.d.= 1)和进行对数或指数的转化。
3. 我们会检验统计模型中所有解释变量和方差膨胀因子(VIF)之间的相关性确保分析不受多重共线性的影响。
4. 依据最小的赤基信息准则(AICc),对线性模型进行简化并选择最优的模型。
参考文献:
Bates, D., Maechler, M., Bolker, B. M., & Walker, S. C. (2015). Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software, 67(1), 1-48. doi:10.18637/jss.v067.i01
Harrison, X. A. (2014). Using observation-level random effects to model overdispersion in count data in ecology and evolution. Peerj, 2. doi:10.7717/peerj.616
O'Hara, R. B., & Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118-122. doi:10.1111/j.2041-210X.2010.00021.x
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 11:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社