|
最近,有学生问我一个关于正态性的问题,颇具代表性,我在这里公开回复一下。
该问题如下:
张老师,您好:
冒昧的打扰您,是想请教您关于数据进行回归后发现残差不符合正态分布的问题。
您在“二傻统计”公众号内发布的“正态性-数据分析中的第一误区”文中提到:事实上,在实际数据分析中,模型的残差真正符合正态分布的情况也很少见(至少我自己一次也没碰到过,当然这时,也可以先对y做下转化,然后再做回归分析)。当你历经千辛万苦,想尽各种办法去改进模型,但残差还是不符合正态分布怎么办呢?一种大家都认可的方案是,我们可以拿模型的残差和拟合值之间重新做一下回归,如果二者没有关系,那就说明你的模型没有什么大问题。残差的正态性,事实上并不是一个非常严格的限定条件,但拟合值和残差没有关系,这一点是一定要确认的。
我在文章中对自己的回归分析数据残差进行正态分布检验后,发现仍有部分分析的残差不满足正态分布,因此按照您提到的方案,对残差和拟合值进行回归,发现两者没有关系,因此采用了模型。但是在文章投稿后,审稿专家对文章数据的正态性提出了质疑。所以想请教您关于您提到:一种大家都认可的方案是,我们可以拿模型的残差和拟合值之间重新做一下回归,如果二者没有关系,那就说明你的模型没有什么大问题。残差的正态性,事实上并不是一个非常严格的限定条件,但拟合值和残差没有关系,这一点是一定要确认的。这个观点您是否有相关的参考文献或者您的文章中是否有相关依据可以让我们引用,以回复审稿人。
回答:
这个提问再次说明一个问题,那就是天下苦正态性久矣!如果前面博文所言,正态性,并非线性回归中一个严格的前提,但残差的独立性和方差其次性的重要性远超正态性,这是目前应用统计里面公认的一点。关于文献依据,一代统计大师Andrew Gelman的新作《Regression and Other Stories》一书的第154-155页有全面的论述。大师的表述其实更为激进,甚至非常反对去对线性回归模型的残差去进行正态性检验,这里我把Gelman大师的描述拍照供大家进行原汁原味的品读,都是干货,值得逐句细度。
欢迎大家扫描二维码,关注我的个人公众号,二傻统计:
参考文献
Gelman, A., J. Hill, and A. Vehtari. 2020. Regression and Other Stories. Cambridge University Press, Cambridge.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-18 03:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社