高山流水分享 http://blog.sciencenet.cn/u/friendpine 走在科学路上的一位无名侠客,只是静静的走着.........

博文

对于bootstrap的一些粗浅认识

已有 23558 次阅读 2011-5-30 22:11 |个人分类:统计学与R语言学习|系统分类:科研笔记| bootstrap

什么是bootstrap?
bootstrap就是从一个原始样本中进行有放回的重复采样,采样大小和原始样本大小相同,采样次数根据计算量而定。从每个重新样的样本中可以计算某个统计量的bootstrap 分布,比如说均值,多个重采样样本的均值构成了原始样本均值的bootstrap分布。在采样完后需要检查待研究统计量的bootstrap分布是不是符合正态分布。此外,统计量的bootstrap标准误等于该统计量bootstrap分布的标准差。

bootstrap分布与样本分布的比较
当我们不知道样本分布的时候,bootstrap方法最有用。bootstrap分布和样本分布的shape相似,因此可以用前者来估计后者。某统计量的bootstrap标准误差等于bootstrpa分布的标准差。

两个概念的比较:
bias:the difference between the mean of its sampling distribution and the true value of the parameter;
bootstrap estimate of bias:the difference between themean of the bootstrap estimate of bias distribution and the value of the statistic in the original sample。Small bias means that the bootstrap distribution is centered at the statistic of the original sample and suggests that the sampling distribution of the statistic is centered at the population parameter.

Trimmed mean的含义:
A trimmed mean is the mean of only the center observations in a data set. In particular, the 25% trimmed mean x25% ignores the smallest 25% and the largest 25% of the observations. It is the mean of the
middle 50% of the observations.

怎样计算95%的bootstrap 可信度区间?
如果统计量的bootstrap分布符合正态分布,且boostrap偏差很小,该统计量的标准误差等于该统计量的bootstrap分布的标准差,根据公式statistic ± t∗SEboot 就可以计算出来该统计量的95%区间,其中t表示在自由度等于原始样本大小情况下t分布的95%可信度对应的统计量大小。需要注意的是,如果boostrap分布不符合正态分布,或者偏差很大,那么不能计算可信度区间。

如何用bootstrap比较两个样本的均值?
当两个样本都不符合正态分布,而且不是很大时,可以采用bootstrap重采样的方法,每次重采样都计算两个重采样样本的均值差异,重复N次,看样本差异的分布。如果符合正态分布,则可以根据正态分布计算概率和差异的可信度区间。

bootstrap分布是否受到采样次数的影响?
当重采样次数很大时,来自同一个样本分布的bootstrap分布基本上相同。然而,bootstrap分布受到样本的影响很大,特别是样本量很小时,bootstrap分布会差异较大,这种情况下从bootstrap分布更多反映的是样本的特征,而不是样本分布,根据它得到的总体分布的推论需要注意。此外,bootstrap的方法不太适合用来计算中位数或者分位数的分布,除非样本很大。(Unless you have expert advice or undertake further study, avoid bootstrapping the median and quartiles unless your sample is rather large)

参考自:Bootstrap Methods and Permutation Tests by Tim Hesterberg et al.


https://blog.sciencenet.cn/blog-54276-449753.html

上一篇:R语言中的机器学习-分类树和回归树
下一篇:对于bootstrap的一些粗浅认识-2
收藏 IP: 159.226.118.*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-13 21:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部