武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

统计:从数据中学到的和学不到的

已有 9152 次阅读 2019-4-20 07:25 |个人分类:书评书介|系统分类:科普集锦

统计:从数据中学到的和学不到的

武夷山

(发表于《中国科学报》2019年4月19日)



 

◎在统计学教育方面有一股潮流,就是强调概念理解而不是计算熟练。现在统计软件很强大,因此,能够手工计算标准差就没那么重要了,而知道如何进行严谨的科研设计,如何阐释研究结果,则要重要得多。本书的写法与此潮流是一致的。


2019年3月,美国Pelican 出版社出版了英国统计学家、皇家学会会员David Spiegelhalter (戴维·施皮格哈尔特)的著作The Art of Statistics: Learning from Data(《统计学的艺术:从数据中学习》,以下简称《统计学的艺术》)。

施皮格哈尔特出生于1953年,在牛津大学获得文学士学位,在伦敦大学学院获得理学硕士和哲学博士学位,其导师为著名统计学家、曾任英国统计学会会长的Adrian Smith教授。施皮格哈尔特目前是剑桥大学统计学实验室的“公众理解风险”教授。根据科睿唯安的统计,他是一位论文高被引作者。据学术谷歌统计,他1995年发表的关于马尔可夫链蒙特卡洛计算方法的专著已被引用1万多次,2002年发表的一篇关于贝叶斯测度的论文已被引用9700多次。

据说统计学大师乔治·博克斯(George E.P. Box,1919—2013)说过,“所有模型都是错的,但仍有一些模型管用”。很多学科都需要建模,但是,世界太复杂,无论是数学模型、科学模型还是统计模型都无法充分把握世界。即便如此,我们还是离不开模型,无论是判断新药的药效还是估算全要素生产率。《统计学的艺术》这本书告诉读者,如何利用日益增多的数据来改善对世界的认识,在此过程中如何避开一些陷阱。

在统计学教育方面有一股潮流,就是强调概念理解而不是计算熟练。现在统计软件很强大,因此,能够手工计算标准差就没那么重要了,而知道如何进行严谨的科研设计,如何阐释研究结果,则要重要得多。本书的写法与此潮流是一致的。

在本书中,作者自始至终强调PPDAC结构(问题—计划—数据—分析—结论)的重要性。第一步是定义问题;第二步是作出关于测度什么、如何测度以及采用何种分析的计划安排;第三步,收集数据;第四步,按照计划进行分析;第五步,看看能得出哪些合理的结论。施皮格哈尔特描述了统计学家是如何进行这五个步骤的每一步的,并介绍了他们采用的工具。

作者在统计学领域浸淫多年,知道很多故事。例如,有一次,他率领一个团队在英国医院里搜集数据,看看儿童心脏病手术后死亡率有多高。他们发现,即使对于概念不应有歧义的一些数据(如做过心脏手术的儿童的人数,术后死亡人数),他们所获得的数据与事先的定义相比仍有偏差。因此,若对潜在的模糊性和极端案例处理失当,就会对研究结果产生很大影响。比如,术后多久发生的死亡可归咎于手术?既然完全清晰客观是不可能做到的,阅读统计分析报告的人就应意识到,存在着多种使事物复杂化的潜在因素,所以不能过度相信统计分析报告的结论。尤其是,某些政治家或陪审员看到儿童心脏病手术后死亡率较高的结论后若不审慎思考,也许会冤枉外科大夫。

阅读此书的可能收获之一就是要明白:不要过度相信我们已经理解掌握的东西。施皮格哈尔特写道,统计科学的作用,就是帮助我们较顺利地将受控实验的结论外推到现实世界,“最后,在保持足够谦逊的情况下,我们才能说从数据中可以学习到什么,学不到什么”。遗憾的是,人们在围绕争议话题(比如癌症筛查是利大于弊还是弊大于利)的辩论中采用统计数据时,往往比较狂妄而不是谦逊。

本书在448页的有限篇幅内讲解了很多内容,难能可贵。但是,涉及了中心极限定理、回归、零假设检验、贝叶斯推断等那么多的内容,肯定难以讲深讲透。

结尾部分讨论了很多有问题的统计学做法。如今科研结果可再现性危机愈演愈烈,那些不当做法难辞其咎。施皮格哈尔特还指出,如果科学家能将涉及统计学的研究项目设计得更好,如果记者在报道时能更负责任而不是信口开河,那么公众对科学和风险的理解就会更准确,更深入。确实,本书对于入门的学生,对于想负责任地报道统计数据的记者,都能提供切实的帮助。

我国国民的统计学素养较弱。军事医学科学院生物医学统计学教授胡良平曾发现,我国医学期刊上的论文,有统计学错误的所占比例甚高;某些国家自然科学基金资助项目支持下产生的论文,也有不少存在明显的统计学错误。我本人也发现,某些在信息计量学研究江湖上行走多年的学者,居然不知道应该何时采用皮尔逊检验,何时采用斯皮尔曼检验。面对这样的情况忧心忡忡,我才推动了《信息专业人员常用统计方法》一书在2008年的翻译出版。像《统计学的艺术》这样的普及统计学知识的优秀图书,无论是原创著作还是译著,多多益善。


《中国科学报》 (2019-04-19 第7版 书评)




https://blog.sciencenet.cn/blog-1557-1174404.html

上一篇:[转载]我理解的“王小波现象”
下一篇:打算在知青点过端午节----插队生活掠影3
收藏 IP: 219.142.237.*| 热度|

26 李升伟 尤明庆 许培扬 郑永军 戎可 杨金波 杨正瓴 曾杰 李泳 王从彦 蒋迅 黄永义 张忆文 李杰 罗祥存 晏成和 李陶 俞立平 强涛 赵凤光 张志华 吴标兵 zjzhaokeqin Hyq18936853798 liyou1983 xqhuang

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 22:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部