liweizheng1978的个人博客分享 http://blog.sciencenet.cn/u/liweizheng1978

博文

什么是统计学上的拔靴法(bootstrap)?

已有 1789 次阅读 2024-8-24 16:43 |个人分类:统计学|系统分类:科研笔记

对SPSS比较熟悉的同事,往往会在每一种统计方法主对话框右侧一排最下方的按钮中,发现“bootstrap”或者“拔靴法”这样的按钮。刚开始使用的时候,发现有它没它一个样,都不影响拿出统计结果来。这到底是做什么的呢?

其实,拔靴法就是一种电子随机有放回式抽样技术。适合用于三种情况:(1)使用常规统计而不用拔靴法时,实测概率p≈0.05或者p≈0.01,即在定性判断为“显著”“不显著”“极显著”的临界点附近,摇摆不定,改变一个观察值,就有可能引起统计结论质的变化,需要更稳健的统计量。(2)生物测定的样本容量不是特别大,或者在剔除了μ±3δ的界外值之后,仍然存在着较大的方差(或标准差、标准误)。(3)数据远远不满足正态分布。

因此,拔靴法采用一种虚拟的有放回式随机抽样,对原观测值进行电子抽样(每个样本的容量和母样本的容量相同),用这些抽出来的样本(默认为1000个),重新构建统计量。

用Excel来演示这个过程:

屏幕截图 2024-08-24 161653.png

我们用=randbetween(0,100)构建了一组虚拟的观察值,并且安排了每个观察值的序号从1到15。

然后就开始抽样了。每次生成的样本观察值是15个。仍然采用=randbetween(1,15)命令,在第3列编好公式并下拉出15个随机数字来,查询一下每个随机数字序号在母样本相同序号中对应于哪个观察值,把它们复制到第4列,就得到了第1个种子样本。

小知识:这个“复制到第4列”的过程,在excel中有一个更快捷的方法:vlookup函数。对于这个函数做更多的解释,可能有辱于读者智商,就不对vlookup做更多解释了。毕竟在这里注册为用户的,都不是一般人。

第5列仍然采用=randbetween(1,15)命令,就又得到了15个1~15之间的随机数字序,按照上述方法,得到第二个种子样本。

这样一直进行下去,直到得到1000个样本,就完成了bootstrap样本的构建。余下的就只是重新计算统计量的问题了。SPSS只不过将这个抽取1000个种子样本的过程给自动化了,免除了许多简单体力劳动。

用下述方法计算新的统计量,实际上就是一个简单的平均化过程而已。

屏幕截图 2024-08-24 163219.png

B指的是抽取的样本数(默认是1000个),(b)代表着样本的第次,“θ*”表示每个种子样本相应统计量的计算值,公式左侧的“θ吧”,就是拔靴法的新统计量。

这种方法的优势,

(1)能较好地避开异常值,因为是1000个重新抽取的子样本重新计算的,非常非常稳健;

(2)能够计算“差中差”。例如,有两个班级,如果你要探讨“一班的成绩是否显著优于二班”?传统统计如独立组t检验就完全可以应对了。但是,如果要探讨的是“一班的成绩差异为什么比二班大”?“一班的成绩为什么不如二班稳定”?传统统计就无能为力了。因为这是对方差变异范围的估计问题,我将其称为“差中差”。

(3)每个电脑、每次操作、每个学者,采用拔靴法得到的结果,最典型的就是“大同小异”。就是说,没有两个人的结果是完全相同的。但是,没有一个人的结果,会脱离大家的共性结果非常远。在科研论文发表时,拔靴拔出来的结果,具有不可复制(或不可重复性),你说什么,就是什么。



https://blog.sciencenet.cn/blog-3612267-1447996.html

上一篇:多批次试验相关系数的合并
下一篇:教学改革,是否已经迷失了方向?
收藏 IP: 39.162.119.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 13:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部