||
在经典统计数据分析模型中回归模型(regression models)大概是最常见的模型了。当我们想要对一组样本数据进行回归分析,一个经常需要回答的问题是我如何才能确定哪一个模型是“最佳”模型呢。首先,我要用下面一个模拟数据的例子来定义一下我所谓的“最佳”模型。
假如我有这么一组样本数据其抽样总体服从一个线性回归模型,我们取出了一个n=3的样本,如上图所示。我们可以拟合一个最简单的线性回归模型(null model = 蓝色虚线):反应变量=常数 ,如下图所示。理论可以证明,相对抽样总体的真实回归线(黑实线),这个模型有最小可能的偏误但其残差的波动范围也最大(minimum bias but with maximum variance)。
代数学得好一点的博友肯定知道,通过不断增加模型参数的数量,我们总可以最终做到模型回归线与数据点100%的拟合,也就是所谓的“饱和模型(绿色虚线表示)”,它的特性是残差波动范围最小但偏误最大。如下图所示。
所以,我们定义的最佳模型(红色虚线表示)就是一个在残差波动范围与偏误的组合上“最小”的模型,如下图所示。问题是我们如何去确定这个最佳模型呢?AIC(Akaike Information Criterion=赤池信息准则)就是这样一个判别准则使我们能从一组备选模型(a group of candidate models)中比较出一个最佳模型。如果k=模型参数的数量,AIC(k) = -2log(样本数据的模型最大拟然估计值)+ 2k。
AIC的推导是有坚实的理论依据的。它是以Kullback-Leibler Information / Kullback-Leibler Distance(简称K-L distance)作为衡量任何一个备选模型与“真实模型”之间的差别/距离。物理学家Ludwig Boltzmann (波茨曼)在1877年提出了把概率与熵(entropy,代表某个独立系统的能量水平或无序程度)联系在一起的重要公式:熵与 – log(概率)成正比, ‘– log(概率)’代表对概率值作自然对数变换后取负值。这个公式可以解读为‘一个事件发生的概率与它所含有的信息量成反比’(高能量水平对应高信息量对应高的有序程度)。进一步波茨曼的熵可定义为:波茨曼熵 = – log {真实模型概率函数/备选模型概率函数}。
美国数学家S. Kullback和R. Leibler在1950年代提出以波茨曼熵相对于真实模型概率函数的期望值来衡量任何一个备选模型与“真实模型”之间的差别/距离,也就是所谓的K-L distance。在1970年前后,日本统计学家Hirotugu Akaike(赤池 弘次)以K-L distance为基础推导出了Akaike Information Criterion最初是为了解决在时间序列分析时确定自回归过程模型(Autoregressive process)的最佳阶数这个具体问题。通过时间的检验,最终AIC被认为具有比较和确定以最大拟然估计值法(MLE=Maximum Likelihood Estimation)进行模型参数估计的统计模型家族的‘最佳’模型的普遍适用的判别准则。虽然我们无法确定任何一个备选模型与“真实模型”之间的绝对差别/距离,但当我们对两个以上的备选模型进行比较时,AIC可以比较出各备选模型与“真实模型”的相对差别/距离 – AIC值越小代表备选模型与“真实模型”的距离越短(信息损失越小)。注意,AIC选出的最佳模型好坏的绝对程度只能靠我们的科学专业判断,统计分析本身无能为力。
下面我用一个具体的数据拟合的例子来进一步说明AIC的应用。
首先我们用R软件产生一组仿真随机样本数据,set.seed(101); xweibull = rweibull(200, shape=1.8, scale=1),因此,其真实模型是一个服从Weibull(shape=1.8, scale=1)概率分布的抽样总体。我们用四种不同的概率分布函数(指数分布,韦伯分布,伽马分布,和正态分布)对样本数据进行拟合,分析结果如下:
我们看到AIC把真实模型Weibull(shape=1.8, scale=1)正确地挑了出来。有博友可能会说用卡方分布或许也可以做同样的比较。表中的Q值就是卡方分布的样本统计量的值,按Q值比较的结果伽马分布应被认定为真实模型。对概率分布有研究的博友会认识到,其实韦伯分布和伽马分布是‘表兄弟’,所以它们的表现相类似是一点也不奇怪的。看一看,下面的Bootstrap的Quantile-Quantile图(对角线/红线代表真实模型,黑色线为备选模型拟合的状况)模拟分析结果就很直观清楚了(a=指数分布,b=韦伯分布,c=伽马分布,d=正态分布)。
根据AIC确定的‘最佳’模型是从预测值准确程度来衡量为最佳,而根据传统的统计假设检验方法确定的‘最佳’模型(比如用Likelihood Ratio test)则无法在理论上确认其最佳的特性究竟是什么。而且AIC一次可比较很多备选模型,Likelihood Ratio test只能两两模型相比较(还要求必须是nested models)。
AIC(赤池信息准则)虽然摆脱了正态分布的限制,却也受制于以下的假设条件:(1)大样本(比如,取决于所选定模型的参数数量,每个参数至少要有20个数据点);(2)模型族的选择是正确的只是具体的参数数量于数值待定;(3)模型的参数必须是按最大拟然估计法(MLE)得到的。于是1976年日本统计学家K. Takeuchi (竹内)提出了Takeuchi Information Criterion (TIC) 以解除第二个限制条件。TIC的文章仅仅发表在日文期刊上,其与AIC的区别在于如何估算模型的复杂程度带来的影响(即AIC公式里的2k项由一个复杂的计算两个矩阵的迹所取代了)。因此,TIC少为人知,知道了也很难应用,所以鲜有人在实际数据分析中用上TIC。针对大样本的限制条件,则有小样本下修正的AIC(AIC corrected):AICc = -2log(样本数据的模型最大拟然估计值)+ 2k(n/(n-k+1)), 其中n为样本容量,k为模型参数数量。在1996年有日本统计学家又进一步提出了Generalized Information Criterion (GIC) 以解除第三个关于MLE的限制条件。在GIC的公式里,AIC公式的第一项也改变了,模型参数不必局限于MLE的方法获得,只需满足M-estimator(一种更一般性的参数估计方法,MLE为它的一个特例)的要求就可以了。可以想象,GIC虽然在概念上是更普遍适用了,在实际数据分析实践上应用起来非常困难。在2002年,英国统计学家(后来曾做过英国皇家统计学会会长)Spiegelhalter等人提出了Deviance Information Criterion (DIC)用于贝叶斯统计的模型比较。
以上提到的信息评判准则(information criteria)AIC, AICc, TIC, GIC, 及DIC都是以K-L distance为理论基础推导出来的。而另一个常见的BIC (Bayesian Information Criterion)模型比较评判准则虽然在名称上及公式的形式上与上述的信息评判准则十分类似,它却是基于不同的理论基础被推导出来的。G. Schwarz 在1978年提出了以minimum message length criteria 为理论基础的模型比较准则(所以也有称其为SIC=Schwarz Information Criterion的),其目的是要近似估算出一个选模型的贝叶斯后验概率,所以被称为BIC。奇怪的是,很少有研究人员去用BIC做贝叶斯统计模型的比较,大家要么用贝叶斯因素(Bayes factor)或者用DIC做贝叶斯统计模型的比较。有兴趣的博友可查考一下Andrew Gelman等人著的贝叶斯统计的经典参考书“Bayesian Data Analysis”,或另一本搞贝叶斯统计的人不会不知道的“The BUGS Book”(尤其参阅第八章),你会发现这两本书对BIC只字未提。
如果有博友想对AIC及本博文的内容做更深的了解,我强力推荐以下两本参考书:(1)“Information Criteria and Statistical Modeling”(2008),Sadanori Konishi and Genshiro Kirtagawa,Springer;(2)“Model Selection and Multimodel Inference: a practical information-theoretic approach”(2002),K. Burnham and D. Anderson,Springer。如果有博友想省点时间却还是想多了解AIC这个问题,你可以读一读我的博士论文的第二章及Appendix A。(链接:https://www.researchgate.net/publication/261288454_Xie_PhD_Thesis )
最后以几句题外话来结束本博文。正是10几年前的对AIC的研究使我第一次对统计假设检验/统计推断产生了许多的问号。尤其是Marks R. Nester, An Applied Statistician’s Creed, Journal of the Royal Statistical Society. Series C (Applied Statistics), (1996), Vol. 45, No. 4, 401-410. - 对这篇文章所指出的“一个应用统计学家的信条”我特别有同感:(1)所有的实验处理其效应都是不相同的;(2)所有的影响因素都是有相互作用的;(3)所有的变量都是彼此相关的;(4)没有任何两个抽样总体会是完全相同的;(5)没有任何数据是正态分布的;(6)没有两个方差会是相等的;(7)“正确”的模型是不存在的;(8)在Equality的意义上没有两个数值是完全一样的;(9)很多的效应值都是很小的。回过头看看我们学术期刊/专业期刊上发表的文章所作的统计数据分析,对比标准统计教科书对统计方法的理论描述(假设条件及数学公式),我们看到实际统计分析的实践是多么的不靠谱-与教科书对统计方法的理论描述完全对不上。就如同我们去教会听牧师讲道,你觉得牧师讲得棒极了;可是天长日久最后你却发现牧师的生活实践却是与他的布道完全是两回事,你会是什么感觉?!这大概就是我为什么坚决赞成彻底抛弃‘统计显著性’概念的倡议的原因。就是如同Christopher Tong在他 (2019)文章的题目所主张的“ Statistical Inference Enables Bad Science; Statistical Thinking Enables Good Science”- 统计推断促成的是糟糕的科学研究实践;统计思维带来的才是良性的科学研究实践。今天我们的学者、学生们是多么地缺乏统计思维的学习、训练与应用。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 12:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社