|
偏回归分析:一种克服变量共线性的回归方法
在前面关于统计结果误读的三篇短文中,我多次提到了变量共线性(Co-variation)对回归分析的影响。但如何克服这种共线性并得到更真实的回归方程呢?目前这还真是个问题。据我所知,一些统计软件(如SPSS)中提供一种叫做偏相关(Partial correlation)的方法,能够在克服变量共线性后给出两个变量之间的相关系数和显著性水平。但有些时候,我们需要去除变量共线性后的回归方程,以便进行预测。而且,仅仅给出相关系数有时略显单调枯燥,不如散点图更为形象具体。我找遍了手头十几本中英文统计学的教材,都没有发现类似方法。或许,它对于统计学家来讲过于简单,没必要进行专门介绍。而且,在目前阅读的专业文献中,我也没有看到类似方法。在此,以线性回归为例,介绍一种进行偏回归分析(Partial regression)的简单方法:
假设,有三个变量分别为x,y和z。已知x和z均与y呈显著正相关,且x和y呈显著负相关。此时,克服变量z的影响后对x和y进行回归分析(即,以z为控制变量x与y之间的偏回归),可按照下面的步骤进行:
(1)对z(自变量)和x(因变量)进行回归,得到回归方程:x = Az + B。上述回归方程的预测值与实际值之间会存在差别,被定义为回归方程的残差(Residual:实际值-预测值)。所以,上述回归方程对特定x的完整表达应该为:x = Az + (B + Residual),其中(B + Residual)是x中无法被z变量所解释的部分。将(B + Residual)定义为新变量x’,表示扣除z影响后的x值。
(2)按照上述办法,可以得到扣除z影响后的y值(即,y’)。
(3)将x’(自变量)与y’(因变量)进行回归或绘制两者的散点图,即完成偏回归分析。该回归方程可以在扣除z的影响后预测y变量对x变量的响应。
一些统计软件中,z被称为控制变量(Controlling variable),扣除其影响后x与y间的相关系数称为偏相关系数(rxy,,z),可由公式1计算。其中,rxy, rxz, ryz分别为x-y,x-z和y-z之间的相关系数。
(公式1)
如数据库中x,y和z都符合正态分布,前面偏回归得到的R2与公式1计算值的平方是一致的。上述步骤在很多数据处理或统计软件中都可以完成,如有兴趣您可以试试。
下图1是利用已有数据库的进行表观回归与偏回归分析。数据中对应的x,y和z分别对应于土壤pH、目标参数Y和温度。其中,土壤pH和温度均与目标参数Y呈正相关,而土壤pH和温度之间呈负相关。SPSS计算的偏相关系数(rxy,,z)为0.54,偏回归分析的R2 = 0.29(n = 200)。尽管两者都达到了极显著水平(P < 0.01)而且残差都符合正态分布。表观回归显著低估了土壤pH变化对Y的影响,幅度达35%。而且,偏回归方程的预测结果与控温实验(即,保持温度恒定)结果具有很好的吻合度。
图1. 表观回归和偏回归分析的比较.
特别提醒:该方法适用于数据量比较大的情况。如果数据量较少,偏回归的P值与偏相关的P会有差别。这主要是由于两种分析方法种的自由度不同。
这里介绍的偏回归分析是笔者基于实际经验对回归分析的扩展。如在概念表述上存在不妥之处,还请统计学方面的专家批评指正,以便不断完善。之所以选择在博客上共享,原因有二:第一,现在的杂志社更愿意发表一些貌似具有重要科学价值的研究型论文,对方法应用类稿件不感冒,还不如在更广泛的平台上分享。如果该方法能帮助解决一些同仁的实际问题,那是我的荣幸;第二,更现实的原因是我交不起那动辄几千甚至接近万元的版面费。笔者近年来开展的大样本分析工作,基本上是没有经费支持的科研裸奔。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-15 21:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社