||
第一年,上马老师的“GIS空间分析”课程,当时做一个作业。我在网上查了一些美国公开的数据来作地理加权回归。主要是geoda软件提供的一些数据链接上的数据。
当时有一个印象,即美国的统计数据发布或者制图的时候,描述数据的分布倾向于采用中值median,而不是均值mean。后来董写双变量地图的小论文,他讨论美国的肥胖和黑人比例,我们又一次遇到这个现象。
为什么会这样子呢?我当时没有想明白。或许想明白了,但是对于原因的印象不深刻。
现在看,中值是一种客观存在,是一个独立的数据;而均值是计算的结果,受到其他数字的影响,尤其是容易受到极值的干扰。
刚才看了两个故事,用来说明均值容易受极值影响,会给人以深刻的印象,所以我记在这里。
1、学地理的收入更高?
据说,美国北卡大学(University of North Carolina)地理系做了一次统计,看其毕业生的收入如何。他们发现地理系毕业生的平均起薪比同校其它系和其它学校地理系的毕业生的起薪都高。於是得出结论:要想起薪高,就得上北卡大学,上地理系。
真实的情况是:迈克尔·乔丹(Michael Jordan)正好上的是北卡大学的地理系。他的“专业”是文化地理学,属人文地理的一个分支。
也就是说,乔丹的高收入拉高了北卡地理系学生起薪的平均值!但是北卡地理系的更多的学生,起薪未必见得比其他专业和其他学校的学生更高。
2、被淹死的统计学家
一个统计学家非常自信地去趟一条平均深度只有1米的河,后来他淹死了。
这句话是在知乎看到的,据说来自于《描述统计:归纳数字特征》。但是我查了一下们似乎没有这么一本书。
统计学家为什么会淹死?河流能不能趟水通过,取决于水流均值还是极值?
所以,平均值是一个很常用可能也很有用的指标。但是一定要搞清楚使用的场景。同时,在计算的时候可能也有一些需要斟酌的地方。通常异常值是需要去除的。但是懒惰的人或者半罐子,不考虑这些问题。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-19 17:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社