||
科学网《测量误差与小样本理论研讨会》低调地开完了,非常感谢叶晓明、杨正瓴和谢钢三位教授的精彩报告,更感谢刘全慧、赵明两位教授的积极参与。很可惜黄河宁老师因为技术原因,无法登录腾讯会议,最后以微信视频的方式间接听完了其他几位教授的报告。黄老师的报告只好再另行安排一个时间。
这个研讨会的综合报告我本来准备在黄老师的报告完了之后,一起写了再在科学网上分享。后来黄老师说:"小袁,你也讲讲你的一些观点"。我想也是,虽然我在每位老师的报告后都提了一些问题,但不系统。况且其他几位老师的报告基本上都是在他们的科学网博文基础上,为了公平起见,我也先把我的一些思考先写出来,供大家批评指正。
首先说明一点,这篇博文中的主要观点,老实地讲是在研讨会后思考了一两天后才完全成形的,之前只是有些依稀的想法,只是觉得测量问题和统计推断、科学探索问题都有某种千丝万缕的联系。现在我可以自信地亮出自己的观点:
大地测量和科学测量中的误差评定问题,与自然科学、社会科学以及以数据驱动为主的工程、管理问题中涉及到的统计推断问题,本质上一个问题。它就是下面这样一个貌似非常简单的逻辑推理问题。
这个问题是这样的:某可观察量为随机变量,记作Y,其概率分布类型已知,其他分布参数皆为已知,只有一个未知的位置参数。不失一般性,假设Y服从正态分布,方差已知,均值未知,即 Y ~ N(β, σ2)。现在得到了该随机变量的一个具体实现值 Y = y(具体如何得到的,暂时不必考虑)。请问:
(1) β 如何估计?
(2) 如何评估上述估计的不确定性?
以珠峰高程的测量评定为例,叶老师关心的问题,经过一些简化修改后,大概可以描述成下面这个样子:
某一大地高程测量系统经过和更为精密的测量系统校准后,其测试误差的标准差σ已知。采用该高程测量系统对珠峰进行测量,得到测量值8848m,请问珠峰高程为多少?其误差限如何评定?
大家看这个高程测量问题是不是和上述逻辑推理问题一模一样呢?将该高程测量系统的测量值记作Y,由于其内在的测量误差(与更为精密的测量系统相比)可以视作随机变量,且其标准差已知。因此在对某一具体高程进行测量时,该高程的测量值就是一个均值未知(高程真值β),方差已知(σ2)的正态分布变量。一次测量得到一个具体数值(8848m),现在要求对高程真值β进行推断。
我们再来看一个简单的统计推断问题,看它与前述逻辑推断问题的异同。
已知成年男子人群身高的标准差为6.4 公分。随机抽取100个成年男子,量取他们各自的身高,其样本均值为171.8 公分。请问:成年男子人群的平均身高是多少?
稍微还记得一点统计学的朋友就知道这是一个典型的“方差已知,由样本均值推断母体均值”的问题。这个问题的数学化描述是这样的:假设某同质化母体中任意个体可以用符合独立同分布的正态分布的随机变量 Z ~ N(β, σ2)来刻画。从该母体中任取n个个体,可以计算该样本的均值 m = (z1 + ... + zn)/n. 另一方面,由于这n个个体是从母体中随机抽取,假设重新抽取n个个体,采用同样方法估计的样本均值将会与前面得到的m值不同。但是,根据概率论,如果Z1, ..., Zn均为独立同分布的正态分布的随机变量 N(β, σ2),那么 M = (Z1 + ... + Zn)/n 亦是正态分布随机变量,只不过它的分布参数稍稍不同,为N(β, σ2/n).因此,这个简单的统计推断问题演变成:已知M ~ N(β, σ2/n),以及M的一个“观察值”M = m,请问β多少,以及由此得到的估计值的不确定性如何?
请问这个是不是和前述逻辑推断问题一模一样呢?
上面这个问题改变一个条件,即将母体的标准差改成未知(它更为接近实际情况),那么这个问题在数学上面就变得复杂起来。复杂的根源在于,此时样本均值和样本方差均受样本的随机性影响,因而二者也就同时成了随机变量。世界上最为低调的一位研究者,化名为“学生(Student)”的威廉·戈塞特(William Gosset)证明在有限样本下M不再服从正态分布,而是一个比正态的尾巴更长的,后来人们称之为t分布的一个新型随机分布。准确地讲,戈塞特构造了一个新的统计量T = (M-β)/(S/n),然后证明了T 服从一个自由度为n-1的t分布。注意到统计量T是一个标准归一化的统计量,如果我们把注意力集中到M,那么β是M的概率分布的位置参数(location parameter),而S是它的尺度参数(scale parameter).
抛开所有这些技术细节,这个统计推断问题仍然是这样的:已知M的分布类型以及它的变异性,其位置参数β未知,现有M的一个“观察量”M = m,请问该位置参数β是多少?其不确定性多大?
这里交待两点:一、黄河宁博士经过他的潜心研究,认为M即使在小样本时,也不应该采用t分布,而应该直接采用正态分布。这个问题还待我们的补充研讨会进一步讨论。二、当样本量n很大时,根据中心极限定理,M的分布趋向于正态分布,此时问题回归到上述的简单统计推断问题。
方差已知的统计推断问题在现实世界中几乎不存在。在有限的几个问题中似乎还存在一个逻辑缺陷,我们稍后再讨论。
上述方差未知的统计推断问题,却几乎涵盖了现实世界中的任意统计推断问题,无论是自然科学、社会科学,还是工程、管理中的数据分析、统计推断,几乎都可以归结为这样一个问题,虽然有时有关母体方差(而非母体均值)的统计推断会涉及到更加复杂的χ2分布,F分布等等,但逻辑推断的本质没有变化。
我们用一个简单的线性回归的例子来说明。线性回归问题涉及到一系列的响应量Y的观察值y = (y1,...,yn)T,以及一系列对应的预测量或解释量X的对应观察值X = [1, x11, ..., x1p; 1, x21, ..., x2p; ...; xn1, ..., xnp]. 构造如下线性模型:
yi = β0 + β1 xi1 + ... + βp xip + εi ------------- 式(A)
其中 εi 为独立同分布且均值为零,方差σ2未知的正态分布模型误差。
根据最小二乘法,其中的模型参数 β= (β0, β1,...,βp)的估计值为
m = (XTX)-1XTy.
进一步地可以证明,考虑到样本的随机性,由此估计的β的统计量M 是一个多维“t”分布。对于任意一个βi,其最小二乘统计量(Mi-βi)/(se/(n-p-1))符合自由度为(n-p-1)的t分布,其中se是Mi的标准误差(standard error)。
抛开所有这些技术细节,这个统计推断问题仍然是这样的:已知M的分布类型以及它的变异性,其位置参数β未知,现有M的一个(且只有一个)“观察量”M = m,请问该位置参数β是多少?其不确定性多大?
我一直憋到现在才给大家强调“且只有一个”这个关键词,因为我怕一下子给大家灌输太多的概念,你们可能会受不了。憋死我了。这个“且只有一个”是谢钢老师介绍的当前否定p值、假设检验、置信区间这个思潮的关键点。
在我进一步解释这个问题的解决方案之前,我建议您在读完下一段落之后就停下来,先想想这个问题,如果问题摆在您面前,您怎么考虑这个问题的?
我重申一遍这个问题:已知一个随机变量的概率分布类型和变异性,只有位置参数未知,现有且只有这个随机变量的一个观察值,请问,该位置参数该如何确定,这样确定下来的位置参数的不确定性如何评估?
好,你可以停下来先想一想。作为一个建议,你可以在纸上画一个平面坐标系,然后画上两三个相同形状但在横坐标位置不一样的概率分布曲线,最后在横坐标上任意点上一点作为这个随机变量的观察值。然后问自己,如何固定这个概率分布曲线?
你有没有觉得这是一个很怪的问题?我的统计学老师,以及我读到的有限的统计学教材,包括大学的测量学老师、大学物理老师,都没有这样介绍这个问题。但是我觉得如果大家想通了这个问题,统计理论我想应该学到了70%以上。至少,理解了这个问题,许多争论就自有主张。
如果你还没有停下来自己想想,我建议你在纸上画画。
我需要先交待一个问题:实际测量中,这个概率分布曲线通常是非常尖窄的。而在经验建模中的统计推断问题中,这个概率分布的宽窄很大程度上取决于数据量的大小。当数据量很大时,它也是可以变得非常尖窄的。对于一个尖窄的概率分布曲线,得到一个观察值后,确定这个概率分布的位置,不知道在心里上您是不是更为好受一点?
这个问题有点怪的地方在于,如果您和我类似,第一反应就是,这是什么名堂,一个随机观察值就想确定整个概率分布的位置,开什么玩笑!好歹要给我两个,三个,最好三十个,我平均一下,我就大体知道了呀。话没错,但这时您已经在二阶统计了。我们还生活在一阶。如果不清楚,翻回去再想想。
好,到这里我想我可以开始介绍历史上的几种解决方案了。太阳底下没有新鲜事,一切新理论基本上都被人想过,我们只是用另一种语言,换一种说法而已。
频率派大概占据了二十世纪统计学的主流。它的逻辑推理的出发点是:认定这个位置参数是一个未知的,确定量。其具体数值是客观的、确定的。只是因为受到随机样本的限制,我们仍然无法唯一地确定它;但是,如果随机样本量趋近无穷大时,我们对它的估计的误差也可以无限趋近于零。
如上图所示三种可能的β值,β0, β1, β2, 在已知一个观察点y的情况下,哪一个参数值更有可能呢?频率派的推理原则是这样的:如果β=β0,那么任取一个观察值,其等于y的概率在其他可能Y值中是最大的。反之,如果β=β1或β=β2,那么任取一个观察值,其等于y值的可能性很低。两相比较,我们更愿意相信β更接近β0而不是其他值。这就是最大似然的推断原则。注意这是原则(priniciple),而不是理论。这也意味着,你可以有其他的可以自圆其说的原则。
接下来的问题是如何评估这个估计值的信心或不确定性。回答这个问题的思路与前述估计的类似。这里先介绍由著名统计学家R.A. Fisher引入的显著性检验(Significance Test)的概念。假设β=β1,那么Y取y或更大的值的概率会比较小。当β离β1越远,这个概率会越小,当小到一定程度时,我们可以认为(1)它(Y >= y这样的极端事件)实际上不可能发生,或者(2)我们宁愿相信它不会发生(此处有主观概率派的思想)。因此,Pr(Y >= y | β1)就是Fisher介绍的p值的概念。当这个p值小到一定程度时,我们认为β不太可能等于β1.
类似地,假设β=β2,那么Y取y或更小的值的概率会比较小。当β离β2越远,这个概率Pr(Y <= y | β2)会越小,当小到一定程度时,我们可以认为这样的极端事件实际上不可能发生.两相界定,[β1,β2]就成了β的一个置信(概率)水平为1-2p的置信区间。
特别要注意一点的是,在正态分布的情况下,
p = Pr(Y >= y = β0 | β1) = Pr(Y <= β1 |β0) ---------- 式(1)
p = Pr(Y <= y = β0 | β2) = Pr(Y >= β2 |β0) ----------- 式(2)
于是,在计算上,
2p = 1 - Pr(β1 <= Y <= β2 | β0).-------------- 式(3)
因为这样一个等式关系,让许多学概率统计的学生,包括毕业很久再也不复习统计的职业研究者掉进了置信区间的“天坑”。叶老师拒绝掉进这个天坑,不得不自创测量误差新理论。
置信(概率)水平为1-2p的置信区间[β1,β2]到底说的是个啥?
1、1-2p为β值界于[β1,β2]之间的概率。错!β早就被你视为客观存在的“确定量”,既然是确定量,它就不应该有概率。
2、1-2p为Y值界于[β1,β2]之间的概率。根据式(3),这个陈述在数学上没有错误,但它说的是Y的事情,与我们心心念念的β有什么关系?这是不是隔靴止痒呢?
3、1-2p为β被这样一个程序计算的置信区间所覆盖的概率。这是置信水平的标准解释。在这个解释中,β为定值,置信区间的上下限均为随机变量。
许多人不满意这样一个解释(包括我自己)。尽管解释3和待推断的β值貌似挂上了钩,但本质上,它描述的仍然是获取置信区间的这个过程(procedure)所蕴含的不确定性,它是对β值估计量(Estimator)的不确定性的一个外在量化,它缺乏内在量化所一般具备的具体性或针对性。它针对的是估计量的一般化的不确定性,这个不确定性与这次估计值(Estimate)的具体数量没有关系。换句话说,观察值取为另一个y值,这个覆盖概率仍与β1和β2的具体值没有什么关系。
支持者则认为这个对估计量不确定性量化的外在性,正是这种方法的优点所在。因为这种外在性,迫使使用者全面审视整个抽样(测量)过程中的关键因素,比如样本的随机性、样本量的大小、母体本身的变异性、建模过程中的模型不确定性等等。同时,支持者还认为这个不确定性的量化也并非完全没有相关性(relevancy),因为我们总可以设想这样的思维实验(thought experiments):假设所有的过程按同样的条件和程序重复一遍,结果会是怎么样变化?在他们看来,这正是不确定性量化的要义。
贝叶斯派针对这个逻辑推断问题采取截然不同的哲学态度。他们认为既然这是一个不确定性推理,既然我们对β值的认识永远就是不确定的,这个推理的结果只有当数据量无穷大时才是确定性的,那么我们可以立足现实,直接将我们心中对β的认识用一个随机变量来描述。更进一步,这个认识随着数据或证据的累积,可以不断发生变化。因此我们可以这样讲,贝叶斯派看重的是一个动态过程,而频率派总想着和这个静态的未知真值比,总想去量化当前估计值和这个真值这个差距,却总发现自己的嘴巴咬着尾巴在兜圈圈。
因此,贝叶斯方法将一切不确定性,无论是所谓的客观不确定性还是主观不确定性,均用随机概率模型来刻画。极端贝叶斯学派甚至认为“概率不存在”,意思是一切概率皆为主观。在它们看来,一切概率皆为条件概率,样本空间Ω是相对的,而非绝对的,因此在一个给定样本空间下,事件A的概率Pr(A) = Pr(A|Ω).
一个题外话,贝叶斯方法的另一个有趣(也有力)的假设是:世间万物皆有联系。这也是为什么最近些年来贝叶斯网风行的一个原因。
在这样一个哲学前提下,Y是一个随机变量,它服从某个已知分布,其唯一不确定的参数为位置参数。现在已经知道Y的一个观察(测量)值,需要反推位置参数的分布。严格地讲,
假设位置参数β在观察值之前有一个先验概率分布π(β). 由于 (Y|β)~ N(β,σ2), 那么根据贝叶斯公式,β在观察值Y = y之后的后验分布为
p(β) ∝ π(β) Pr(Y=y | β) .
假设无信息先验概率,即π(β) ∝ 1, 也就是说,事前我们对β的任何取值持相同偏好,那么很简单可以得到 β~ N(y, σ2).
因为β被视为随机变量,现在它的概率分布完全确定,其不确定性完全由该分布刻画。前述逻辑推理问题尤其是第二部分中的不确定性评估问题,直接得到解答。
需要认识到,人类的思维仍然不习惯直接处理随机变量或概率分布,而总想得到概率分布的某些特征值,或再不济,至少要给个“范围”。此时,最大后验概率估计可以作为其点估计,由后验分布得到的可信区间(credibility interval)作为其区间估计。这个时候,贝叶斯方法得到的区间估计的解释,就可以直接采用上述解释1,即β值界于[β1,β2]之间的概率为1-2p。
针对这样一个解释,频率派仍然可以有反对意见。比如他们会说:你这样得到的β1,β2值明显具有随机性,同等条件下重新抽取一个样本,这两个限值又会发生变化,这时你怎么办呢?
贝叶斯派的回应是:第一,这个可信区间是基于我目前所有可以处理的信息做出的,我手头上有这样一个样本,我的可信区间就是这样两个限值,你如果得到的是不同的样本,你的可信区间可以是不同的,因为你推断的基础发生了变化。第二,如果我在同等条件下第二次抽取同等数量的样本,此时我得到双倍的样本量,这时我的可信区间会进一步变窄,这更符合我们的认知过程。
Fisher 和 Pearson 父子因为学术思想相左而结为“世仇”,但是他们有一点是共同的,那就是他们都笃信频率派,也许他们认为这样更“科学”吧,因为在那个时候,科学的一个特征是“客观性”。也许他们都认为真理是绝对的,贝叶斯显然认为真理是相对的。
Fisher在后期提出了一个Fiducial probability的概念,但是这个概念慢慢被边缘化了。这个方法持频率派思想,假定位置参数β为未知确定量,但同时又试图为确定这个未知参数方法提代一个直接而客观的概率分布,它本质上是位置参数的归一化后的似然函数,反映的是y观察值对β估计所提供的信息量。对于我们前面描述的简单逻辑推理问题,这个置信概率分布就是N(y, σ2).
前面讲了测量与各类统计问题的统一性。接下来讲讲各类问题的一些个性特点。
测量问题与科学问题的一个区别是,前者的方差可以视为已知,因此在一个测量值的情况下就可以进行误差评估。评估方法已经讲完了。
我貌似把测量问题过度简单化了。就我有限的认知来看,测量当中其实有非常复杂的多层次误差建模的问题,这里就不展开了。
科学问题宏观一点讲,可以看成是一个经验建模的过程,这时前述公式(A)中的误差除了包括响应量Y的测量误差之外,还包括模型误差。响应量Y的测量误差,在自然科学问题中通常是已知的,在社会科学(如心理学)问题中通常是未知的。模型误差是一个更大的“黑洞”,它包括模型结构不正确带来的误差、解释变量X的测量误差、其他不可观测量的影响,等等。在这种情况下,模型的估计以及模型不确定性的评估,除了受样本量大小的影响之外,还与上述影响模型误差的那些影响因素有关。但是任何一个科研人员都必须对下面这个事实保持清醒的头脑,那就是,在前文所述的经验建模、统计推断过程中,模型误差已经被内化,在此基础之上计算得到的p值、置信区间等等都无法再用已有的单个样本来完成外在不确定性评估。这就是近年来反对显著性检验的一个重要原因。当然这个运动其实包括两个方面的问题,一个是p值的问题,一个是p值界限的问题。后者的错误是显而易见的,属于误用。而前者,我个人并不将其视为错误。但是根本一点,无论自然科学还是社会科学,科学的本质是可重复性——回到前面的逻辑推理问题,那就是要用多个试验来验证。
科学是追求真理的过程,那是一个不停的迭代过程。
工程、管理中的统计推断问题与科学中的统计推断问题相比,表现出一个明显的区别,那就是前者的决策特征。工程、管理中遇到许多问题,需要收集数据,建立经验模型,形成多个方案,最终就最优方案进行决策。决策的本质是理性(或者是将有限理性的有限性尽量扩大)。在这个决策过程中,其中的不确定性是需要正确量化,再综合考虑这些不确定性在系统中的传递、反应,最终权衡各种利弊(或风险分析)才能得到最终方案。在这个过程中,传统的频率派得到的p值或置信水平,往往力不从心,而贝叶斯派对未知参数或模型不确定性直接进行量化,完全没有这种逻辑缺陷。这也是这些年来贝叶斯方法越来越盛行的一个原因。
“人类一思考,上帝就发笑”,其根本原因是人类获取的信息永远是不完美的。获取、处理信息,评估结论的不确定性是科学研究中的普遍问题。概率的两面性,永远不可能消除,因为一方面人有对美的绝对追求,另一方面人又不得不向现实低头。我这样讲也许有些悲观,但这是我当前的一点认识,供大家批评、指正。
2017年相关博文:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 11:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社