|||
正态分布吟,离散平均律。
形若嵩峦绘起伏,理顺无章序。
天数纵茫茫,竞往巅峰聚。
山麓存留百分五,画满方家欲。
1917年美国决定参加第一次世界大战,同年4月对德宣战。由于之前美国对一战持“中立”,所以并没有备战,而现在必须在一个星期内赶制100万套军服,制衣商很为难,他都不知道军队的身高是什么样子,不得不求教于统计学家沃特·阿曼德·休哈特(Walter A. Shewhart)。休哈特说,人群中高个子和矮个子都比较少,大多数的人都是中等身材,也就是说人群的身高是一种自然的分布,也叫正态分布。只要随机抽一批美国人来量身高,得到身高的平均值和标准差后就能解决问题了。
正态分布只需要知道平均只和标准差就能轻松驾驭。平均值大家都知道,标准差就是分布中的每个数与平均值差值的平方和再开方,是一个描述群体离散程度的指标,标准差越大,群体间的差异就越大,如果群体高度接近一致,标准差则接近0。根据正态分布,入伍军人的身高分布有68%左右落在一个标准差之内,就是图中间的部分,95%的落在二个标准差之内,99。7%落在三个标准差之内…………,根据这个规律,美国军队一个星期内集结完毕开赴前线。
正态分布也叫高斯分布,10马克纸币上就印有高斯的头像和正态分布曲线图。很多看起来杂乱无章的数据,如人群的身高、智商、考试成绩、一天之内在路上跑的汽车数量、测量误差等等自然界和社会现象都服从正态分布。某事件采集的数据绝大多数都落在两个标准差范围之内,这部分曲线面积占95%,越靠近中心数越多,也就是说数字分部都有向曲线颠峰集中的趋势。而落在曲线山脚部分的只占5%,也就是说是一个很小的概率,按常理几乎不可能发生。在一次实验中如果发生了小概率事件,就可以认为这个事件与实验对照间有着本质的区别,是两件不同的事件。所以统计学上的显著水平就以5%为基准,也就是科技论文里面大量p<0.05的来由,比如为了检测一种新药对某种病是否有疗效,就统计吃该种药和安慰剂的治愈率,如果两者差异显著水平p<0.05就可以认为该种药有统计学意义上的疗效,p>0.05就认为这种药和安慰剂一样没有统计学疗效,所以0.05这个数字在统计学上出现频率最多的数字,做对照实验的人是多么盼望出现p<0.05呀!但如果一个事件不服从正态分布,这p<0.05不知道多少实际意义,p值被滥用已经是心理学、流行病学领域非常普遍的问题了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-29 12:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社