以科学之名分享 http://blog.sciencenet.cn/u/flysky97 网络上虚假的东西很多,而此地尽可信其真实……

博文

趣味故事看:统计到底是个什么鬼 精选

已有 4066 次阅读 2018-11-7 11:35 |个人分类:人文|系统分类:科研笔记| 数据, 统计, 统计学, 科学, 中科院

 趣味故事看:统计到底是个什么鬼

文/齐云龙


统计是一门不易理解的“数学”人为的规定、抽象的术语、繁多的公式……

这门课真得是让人头大,据说是专业内最难的课程之一……

让人沉浸在公式里跳不出来……

2.gifEXMU1143.gif



不过,我觉得,这是一个大数据的时代,真的是——无统计,不人生!

正文:统计到底是个什么鬼?

如果我说,我觉得这门课其实还是挺有意思的——

不知道,会不会有同学立马丢鸡蛋或者鞋子过来……


这门课由北师大黄四林老师和中科院心理所禤宇明(我们又认识了一个新字,读xuan宣)两位老师联袂主讲,

深以为,统计学由他们讲来,真的是趣味横生……

一上课,黄老师就先给打了预防针:统计学是你们学的课程当中最难的一门!

看看我们的同学们是如何根据自身的体验来评价统计学的呢?:



image.png

image.pngimage.png

3.png


统计学地位似乎并不高,我看过学科编码表,居然排在最后,比民族学、体育学还往后:

但内心觉得这门课程其实真的非同一般——

统计学运用的好,得出的研究成果让人受益匪浅;统计学是一个枯燥的专业,要和大量的数据打交道,堆积如山的各式表格看了都让人害怕,更别说还要去整理和分析这一堆堆冷冰冰的数字了,

可是,统计学又是一个有趣的专业,毕竟它是和生活紧密联系在一起的。

为什么需要统计学?

学好了统计,真能改变人生!!!

你信不信?不信?有个故事是这样的:

我有个哥们,有次聚会时说自己买了很多条IPhone数据线,家里每个房间插一条,走到哪儿都能随时充电。

在场的姑娘们都当成是段子笑笑就过去了,

只有一个认真学过统计的姑娘悄悄问他买了多少条,他说42条……

现在他和那个姑娘在北京三环内总共42个房间的数套豪宅愉快地生活,上个月刚结婚了……

(噢,好吧,上面故事实际发生的概率p<<0.01)


看看一些历史上那些人是如何评价统计学的吧:

南丁格尔说:人类发现了统计,统计改变了世界。若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。

一个有名的医生(但是我不知道他是谁)说:“没有统计,其它科学可以存在,但是很渺小”,“医学若无统计就不是科学”;


clip_image002.png


223849njjcamayvzy3z3rd.jpg


噢,对了,我们的黄四林老师专门提到了上面这句话

好吧,也许你也会认为,上面那些人在某种程度上是夸大其辞……

和他们持不同意见的人这么说过:

“世上有三种谎言:谎言,该死的谎言,统计数字”


——是的,每当看到某些网络上公布的统计数据,我们可能也是这样想的,

比如某些新片的票房,某些企业的业绩,房价会继续上涨还是下跌……

还有男人的收入,女人的体重和年龄……

而禤老师说,其实统计学就是——猜……

嗯,真得是言简意赅、一针见血、入木三分呀!

那,统计到底是个什么鬼?


统计的诞生与地位

统计一词起源于国情调查,最早意为国情学。

统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。由这一语根组成意大利语Stato,表示“国家”的概念,也含有国家结构和国情知识的意思。根据这一语根,最早作为学名使用的“统计”,是 在十八世纪德国政治学教授亨瓦尔(G.Achenwall)在1749年所著《近代欧洲各国国家学纲要》一书绪言中,把国家学名定为“Statistika”(统计)这个词。原意是指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。此后,各国相继沿用“统计”这个词,并把这个词译成各国的文字,法国译为Statistique,意大利译为Statistica,英国译为Statistics,日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,才确定以“统计”二字正名。1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本横山雅南所著的《统计讲义录》一书把“统计”这个词从日本传到我国。

最早的统计著作来自公元9世纪的《密码破译》,由阿拉伯人肯迪编著。在书中,肯迪详细记录了如何使用统计数据和频率分析进行密码破译。

根据沙特阿拉伯工程师易卜拉欣·阿凯笛(Ibrahim Al-Kadi)的说法,统计学和密码学分析便如此一同诞生了。

自然和人类社会是有序的,按完美的设计而恒定地运行着,从星体的运动到树叶的颤动,从人们的行为到人们的观念,所有感官能感知的东西都能用一种精确、和谐而理想的形式来描述。

任何科学都只能预见大体上的重复现象。

统计学就是通过差异描述规律;透过现实走向理性,走出混沌,走向秩序!

有人把数据比作是信息、知识和智慧的基石……

统计学是科学的“母亲”和“仆人” 。说她是“母亲” ,因为统计学对其他学科起着孕育、生产新思想的作用;说她是“仆人”,因为统计学是其他学科的工具,用统计规律逼近客观规律的工具。

而实际上,统计思维又或者数据思维是人类在自然进化过程中自然而然发展出来的一种思考方式和解决问题的路径,更是当代人都应该具备的底层思维方式,而不仅仅限于学术领域。

我们已经无可逃避地身处大数据时代了,如何辨别真伪,如何做出决策,都需要数据思维的支持,每个人、每个人的生活、每个人的工作都在被量化,善于使用数据的人正在用数据帮助自己设计、优化和迭代自己的人生。

数据不能说明一切,但是是某种事实:

In God we trust. Others bring data.

数据是最简练的语言, 统计学和数学中的公理、定义、定理是最无歧义的语法。

我们需要概率来理解抽奖,保险,医学试验,工业质量控制,天气预报,运动创伤,基因和现代物理。

在面对不确定的情况下,统计是一种能够帮助我们做出聪明决策的科学方法(通常的误差极可能来自样本量还不够大)!

如果你想抓住生活的机遇,想成为一个具备理性思维的人,学习统计学能在极大程度上帮你建立理性思维的框架提高分析问题与处理问题的能力。

当你把知识点都一一击破后,你会惊喜地发现很多公式再也不用死记硬背了,它就印在你的脑海中了,你突然一下子就能看懂回归的结果和表格了,从此以后再也不怕阅读定量类学术文章。

很多人在学习统计时都认为统计由一系列枯燥的数字、公式和图表组成,十分繁杂无味。

然而随着对这门课的深入理解,不知不觉中会逐渐体会到统计的趣味性。且看我下面的分解:


统计与美食

你男朋友/女朋友时常会问,西红柿炒鸡蛋是先放西红柿还是先放鸡蛋,有影响吗?——尝一尝就知道?!

如果事先不知道,某个人下了判断,你能判断他说的是真的还是猜的吗?80多年前,一位很厉害的英国大牛遇到了类似的问题!


一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲的品茶论道。席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大影响。把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成份不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?

当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小的,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。

此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。

他和助手设计并调制出很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨(你知道,就算是蒙,每杯也有50%的概率)……据说她能分辨出8杯中的每一杯茶,全部答对!

因美女引发了灵感,加上天赋和勤奋,Fisher创立和完善了实验设计理论和方法。


统计与生命科学

我们已经在中学课本里看到这个案例:

1857年,奥地利统计学家孟德尔(Gregor Johann Mendel,1822-1884)精心挑选出22个品种用于实验。考察其可以相互区分的稳定性状,例如高茎或矮茎、圆粒或皱粒、灰色种皮或白色种皮等。在教堂的后花园内一块不到2400平方英尺的畦田上,一干就是八年。耐心实验、仔细观测、不厌其烦,终于从繁杂而宝贵的数据中获得了具有普遍意义的遗传统计规律,成为后世伟大的先驱——


统计与管理

——啤酒与尿布的故事

全球最大的零售商沃尔玛通过分析顾客购物的数据后发现,很多周末购买尿布的顾客同时也购买啤酒

经过深入观察和研究发现,美国家庭买尿布的多是爸爸。年轻的父亲们下班后要到超市买尿布,同时“顺手牵羊”带走啤酒,好在周末看棒球赛时过把酒瘾。

后来沃尔玛就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。

这个故事是被公认的经典范例。

统计与经济

比如我们在之前文章女人——才是经济的晴雨表(点击可直接打开链接)中提到的“下摆指数(Hemline Theory)”——女人裙子底边的高度预示了大约六个月后股市的走向。女人流行穿短裙时,股市指数会走高,相反,女人如果流行穿长裙,则股市指数会走低。有人对此现象做了猜测,认为,短裙意味着出风头和乐观态度,而长裙摆意味着潜意识中的软弱、害怕未来和沮丧的情绪。

另有一个“口红指数”,是化妆品制造商雅诗·兰黛发明的衡量口红销售情况的指数。该指数表明在经济萧条时口红的销售情况反而会比较好,因为这些产品的购买者要从小的、能支付得起的奢侈品中得到一些安慰。(参阅[英]彼得·坦普.神奇的指数:走进经济指数.经济科学出版社.2003,230~231页)

统计与财富

正确发应用统计,一定能带来财富。“田忌赛马”的故事也证明了最早的博弈、体育竞赛和统计学的密切关联!

但是,统计可以直接变成财富吗?看看下面这个传奇:

买彩票中头奖的几率至少在百万分之一,这个概率比被闪电击中还要小的多,但在20世纪60年代到90年代间,曾是罗马尼亚一名会计的Stefan Mandel却曾经14次中得彩票头奖。在Stefan Mandel看来,他之所以能赢得14次头奖,只是利用了一个简单的高中数学公式。在一种典型的彩票玩法中,人们可以在一定的数字范围内随机选择数字(比如,1~40),如果公布的数字与你选择的完全一致,就会赢得头奖,若头奖无人中,奖金将进入下期并可一直滚存,在奖池中积累,直到有人中奖为止。用一个简单的数学公式就可以算出,比如,一种从1~40中选择6个数字的彩票,总共会有3838380种可能的数字组合。


如果奖池中累计的奖金达到1000万美金,那么,从理论上来看,Mandel可以以每个组合1美元的价格,买下所有组合的彩票,这样就能保证百分之百中头奖。

fd6eb9685a7547c2b06c78884a3cf32d.jpg

在好莱坞大片《决胜21点》中,麻省理工学院的数学教授米基解开扑克牌游戏21点的必胜程序后,找来6名天才学生组成了一个特别的团队,闯荡赌城,大获全胜。澳大利亚的19位数学高手也是这样的传奇人物。他们走出大学校园,组成“赌客俱乐部”,利用数学知识进军赌场,几十年间积累了数十亿澳元(1澳元约合6.6元人民币)的财富!

和上面的“赌徒”相比,这位可能更成功——詹姆斯·西蒙斯(James Simons)世界级的数学家,身价达125亿,位列福布斯世界财富排行榜第96位,他曾在创业时建立模型,成功地利用统计学知识预测股市形势,利用电脑挖掘数据。他的成功预测让他成为世界上最富有的数学家。

统计与军事

第二次世界大战期间,盟军很想知道德军总共制造了多少辆坦克。德国人长于逻辑思维而乏于机变,在给坦克编号时非常刻板,他们把坦克从1开始按序编号。战争之中,盟军缴获了一些德军坦克,并记录下了他们的生产编号。这些编号对于了解德军的坦克总量有用吗?在统计学家眼里,这些编号组成了一个样本,可由此去估计总的坦克数量。

制造出来的坦克数肯定不小于记录中的最大编号,为了推测它比缴获坦克中的最大编号大多少,可以先计算已知编号的平均值和方差并把这个平均值视为全部编号的中点。因此,样本均值乘以2就是坦克总数的一个估计,当然,这里必须存在一个假设:缴获的坦克代表了所有坦克的一个随机样本。使用这种方法估计,有可能出现一个荒谬的结果:作为全部坦克数量估计值的样本均值的2倍居然小于样本中的最大值。另一种估计方法是用观测到的最大编号乘以(1+1/n),如果缴获坦克数量为10,其中最大编号为50,那么坦克总数的一个估计是50×(1+1/10)=55。这种方法的各种变形的确用于二战之中。

从战后发现的德军记录来看,盟军的估计值非常接近于德军生产坦克的实际值。记录还表明统计估计比其他情报方式所做的估计要大大接近于真实数目。统计学家做得比间谍们更漂亮!

另外,统计学家还帮盟军设计了飞机"钟摆式"轰炸路线,避免德军的拦截和反击,另外,还描绘了每架中弹之后仍然安全返航的飞机的中弹部位图,然后将所有的图都叠放在一起,准确分析出了飞机应该加强防护的部位!

(另外,有统计数字显示,打赢很多战争的秘密武器是:酒!古往今来,无数士兵在酒精的刺激和麻醉下,压抑着战争带来的恐惧,甚至在关键时刻迸发出惊人的战斗意志。)

统计与文学

——《红楼梦》作者考证

众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。

能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。

一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类

而后40回是否为高鹗写的呢后续的论证结果还推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。

这个论证在红学界轰动很大,使红学界大为赞叹。

统计与艺术

哲学、逻辑、政治、经济、管理等学科与统计学的关系之密切是众所周知的,那如果是艺术领域呢?

其实,你有没有想到过,“音乐是人类灵魂从计数中感受到而没有意识到这是计数的那种快乐。”(——莱布尼兹)

远古时代,人们创造出一种像排箫的编管乐器,不同长度的管发出不同的音,其外形与直方图非常接近。这种乐器最初能奏出含有三个音组成的五声音阶。到了商代,在一个近似的八度中确定十二个律,并在十二个律中选取五个或七个音组成的音阶体制才确定下来。

(仔细看呵,上面这是一种乐器,不是直方图!)

随着计算机进入音乐世界,音乐、数学、统计学的融合达到了空前的完美。

许多乐器的设计和制作、作曲、歌手的包装等,大都使用统计技术将他们产生的实际声音用图像显示出来,有点像医学中的心电图等。而后,再与用数学描述的理论的或理想的声音图像进行对比,最后,尽可能消除偏差,以达到更接近理论值的艺术效果。

当然,像绘画和自然界中一些几何数学的美,黄金比例数字等,也早已经广为人知了……

至于体育,你有没有注意过,奥运会打破记录的时间更有可能是在下午?

关于统计学的例题


摘两个例子:

计算第一题,

image.png

各科总分一样,实力就一样吗?

上面这道就是我们可能会实施的高考标准分排名的典型例题,这道题也充分展示了两个原始分数相同的学生,真正实力的评价方法……你学会了吗?

计算第二题,

这道题分明就是前面提到的估算德军坦克的故事的翻版了!

或者,如何预测一个池塘里有多少条鱼,甚至是大海里某种稀有生物的数量?解答方法,和上面预估德军坦克的故事就非常类似了,不过统计学已经有了更精确的测算公式……

其他不再一一列举,但由此,可见这些题目确实也非同一般呀……


结尾

双11来了,你们有没有统计过自己每年双11自己剁手后后悔的物品和金额

(你有没有想过,你身份证的号码也会影响你的消费?一个有趣的实验结果显示,身份证末两位数值的大小会显著影响人们对商品的出价:身份证后两位为80~99的人相比后两位为0~19的人竟相差了三倍。建议双11前可以再读读别做正常的傻瓜

爱美的姑娘们,你们有没有关心过,哪些食物的热量最适合减肥又最健康?

爱运动的人们,你们有没有天天盯着手机的计步软件或者可穿戴设备上的数字?

这真得是一个离不开数字的时代!

而回望每一个咿呀学语的幼儿,他们最开始要学的可能也是1,2,3,4,5……

为什么你年年学统计,却年年还在学?

如果你学过统计,你深究过下面这些统计细节嘛?

1.总体分布的横、纵坐标是什么?样本分布的横、纵坐标是什么?抽样分布的横、纵坐标是什么?概率分布的横、纵坐标是什么?标准正态分布的横、纵坐标是什么?

2.区间估计时1-95%=0.05,和假设检验时设定的p=0.05,这两个0.05是什么关系?

3.为什么总体的方差是除以N,样本的方差是除以n-1,而抽样分布的方差是除以n?

4.为什么大样本用z检验,小样本用t检验?

5.类别变量的均值和标准差是多少?

6.为什么原假设H0是假设无关呢?

7.你能严谨地说明算术平均数、加权平均数和期望值的联系和区别吗?标准差和标准误之间又是什么关系呢?

8.有位统计学家说“标准差是统计学最重要的工具”,是言过其实还是却是如此吗?

。。。。。还有很多


为什么在看一本统计书的时候感觉看懂了,合上书就感觉脑子一团浆糊?令人抓狂的是永远都不知道怎么把书中的统计知识应用到实际生活中?其实统计和数据分析在我们生活中还是非常有用的,要想深入理解,只有不断试着去应用到我们实际的生活中!

或许,将来的某一天,我们要挤上飞离地球的诺亚方舟,要上船的时候,守卫会考我们:你说你是中科院心理所毕业的,请问标准差是怎么算的?

那么你能抓住机会答对问题而登船吗?

学得太蜻蜓点水,前面的欠债,难免晚些时候要还的……

你以为考完了,就万事大吉了吗?

错!

如果,你也因为没有学好统计学而遗憾,那恭喜你!

因为——下一门课,还是禤老师……

此后的故事,我们且等之后再续!

致谢

感谢我们文科出身的黄四林老师,他让我第一次发现原来统计也是这么有趣,让我们更从哲学和人文的角度再次审视统计学……

当然,感谢接棒黄老师的可爱的禤明宇老师,他不仅聪明睿智,还风趣幽默,他讲课时候神采飞扬的样子分分钟就能制成令人忍俊不禁的表情包……

他的人格魅力将会影响准备继续在心理学上艰难前行的我们……

参考文献:

[1]《统计,改变了世界》萨尔斯伯格著,叶伟文译,台湾天下文化书坊,2002.4

[2]《世界统计名人传记》龚鉴尧著,中国统计出版社,2001.1

[3]《统计发展史》陈善林、张浙编著,立信会计图书用品社,1987.9

[4]《殴美统计学史》高庆丰,中国统计出版社,1987.8

[5]《统计学的故事》袁卫,纪宏 

[6] 科学网—Fisher的“女士品茶”和假设检验 - 王云龙的博文  http://blog.sciencenet.cn/blog-624263-795715.html



http://blog.sciencenet.cn/blog-568569-1145008.html

上一篇:共夏花绚烂 共秋叶静美

9 李学宽 黄裕权 文克玲 黄坚亮 郭景涛 吕洪波 曹俊兴 黄秀清 杨立坚

该博文允许注册用户评论 请点击登录 评论 (18 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-11-16 21:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部