zhang2sha的个人博客分享 http://blog.sciencenet.cn/u/zhang2sha

博文

自然比率数据该如何分析?

已有 426 次阅读 2024-1-31 09:04 |系统分类:科研笔记

自然比率数据是非常常见的一种数据类型,比如叶片被虫子吃掉的比率,植被盖度等等。

图1.jpg

这类数据的特点是值位于0,1之间,但又和由比率数据转换而来的比率数据有所区别(比如你播种了100粒种子,萌发了40个,萌发率为0.4,这就是典型的计数数据转化而来的比率数据,这种比率数据,属于典型的二项分布)。而自然比率数据,天生就是比率,这种数据中,不存在所谓获得比率的样本量问题,所以这种比率数据不属于二项分布的范畴。

针对这种比率数据,首先进行数据转换,再进行线性回归或者anova分析是过去常用的方法。比如对数据进行arcsin()转换,或者log(y/(1-y))转换,以及转换之后,再进行一般线性模型的拟合。但是,对自然比率数据进行数据转换,一直以来都是争议很大的做法。比如,早在遥远的2011年,一篇发表在Ecology的论文就认为:“For non-binomial data, the arcsine-transform is undesirable on the grounds of interpretability, and because it can produce nonsensical predictions (Warton and Hui 2011)”. 这篇文章认为logit转换(log(y/(1-y))),是个不错的选择。但是,如果你的比率有零值,甚至有大量的零值,那么logit转换,又要先对比率加上一个很小的数值才能转换,这似乎也又进入了死胡同。

Beta回归,其实是最适合自然比率数据分析的模型,但似乎是受制于统计工具的限制,beta回归长期没有得到大规模的应用。直到最近这几年,随着R中不同工具包的功能日益强大和完善,beta回归开始日渐受到人们追捧。2022年ESA旗下的ecosphere 杂志发了一篇论文,题目就叫《A case for beta regression in the natural sciences》,明目张胆以一种回归模型的应用案例为题目,足见beta回归应用之少见。这篇文章(Geissinger et al. 2022),详细分析了此前人们处理比率数据的各种方法,也见证了各种方法的兴衰(下图)。

图2.jpg

其实在2019年,Methods Ecology and Evolution上就专门发文介绍了适合比率数据的分析方法,重点介绍的就是beta回归(Douma and Weedon 2019)。感兴趣的朋友可以去看看这篇论文,里面也介绍了一些理论知识和案例分析,包括相关数据和代码。

通常,beta分布的范围是(0,1)。但是当你的数据中,包含零,甚至0很多的时候怎么办呢。这时候,我们就可以更专业一点,安排上所谓零膨胀beta回归模型,这便是当前最为专业做法了。下面,我们就以一个具体的案例为例,分别用贝叶斯和频率统计中的brms包和glmmTMB包这两个当红统计工具给大家演示下,如何去拟合一个广义线性混合模型中的零膨胀beta回归(Generalized mixed effects model with zero inflated beta error structure)。这个案例的数据本身是2019年发表在Global Ecology and Biogeography上的一篇论文,论文附件中包含了数据和贝叶斯分析代码(Muscarella et al. 2020)。考虑到很多人对贝叶斯统计的恐惧感,我这里再用频率统计把他的模型跑一遍,并对比下结果。这里也向原文作者公开其数据和代码表示感谢

话不多说,上代码(代码做了必要注释,供大家参考):

图3.png

图4.png

图5.png

结果对比图如下:Rplot01(1).bmp

欢迎大家关注我的个人微信公众号“二傻统计”

二傻统计二维码.png

参考文献:

Warton, D. I. & Hui, F. K. C. The arcsine is asinine: the analysis of proportions in ecology. Ecology 92, 3-10 (2011).

Geissinger, E. A., Khoo, C. L. L., Richmond, I. C., Faulkner, S. J. M. & Schneider, D. C. A case for beta regression in the natural sciences. Ecosphere 13, e3940, doi:https://doi.org/10.1002/ecs2.3940(2022).

Douma, J. C. & Weedon, J. T. Analysing continuous proportions in ecology and evolution: A practical introduction to beta and Dirichlet regression. Methods Ecol Evol. 10, 1412-1430, doi:https://doi.org/10.1111/2041-210X.13234(2019).

Muscarella, R. et al. The global abundance of tree palms. Glob. Ecol. Biogeogr. 29, 1495-1514, doi:https://doi.org/10.1111/geb.13123(2020).



https://blog.sciencenet.cn/blog-3442043-1419991.html

上一篇:引用达8900次的混合模型现象级论文
下一篇:Meta分析,再登Science!
收藏 IP: 210.72.152.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 03:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部