willtongji的个人博客分享 http://blog.sciencenet.cn/u/willtongji

博文

说说统计学、概率论和数理统计这些老梗 精选

已有 6350 次阅读 2017-2-26 15:15 |系统分类:教学心得

说明:本博客与微信公众号《嘉数汇》部分同步更新,内容大部分原创。请扫码关注《嘉数汇》公众号。

“梗”这个字眼在当下综艺节目中出现得最多,意思是笑点。梗系讹字,正字应为“哏”。网上很多文章说梗这个字其实是台湾人以讹传讹,人云亦云传出来的。比如“老梗”在台湾综艺节目中就指被用了许多次的旧搞笑桥段,也就是老笑话。后来意思演变成作品中不断重覆出现的老桥段。用了太多次的老梗会被认为缺乏创意(或称为没梗了)。

今天我们就来说说统计学概率论数理统计这些老梗。为什么要说他们呢,因为这几个字眼大家肯定是已经无数次地碰到过了,但他们究竟代表了什么,以及他们之间的区别与联系,相信大家平时肯定是没怎么关注过,而是更多的混为一谈。

然而今天,随着大数据与数据科学的热火朝天,这几个词重新被大家给予了高度关注,特别是统计学。原因也很自然:分析思维是数据科学的核心思维方式,而分析思维就是关于计算与统计的思维。

统计思维生长的土壤就是概率论和数理统计。

1、统计学

首先说说统计学,关于这个词其实是个历史遗留问题。因为从统计学的发展历史来看,最早的统计学和国家经济学有密切的关系。统计学的英文是“statistic”,其实它是源于意大利文的“stato”,意思是“国家”、“情况”,也就是后来英语里的state(国家),在十七、十八世纪,统计学很多时候都是以经济学的姿态出现的。根据维基百科:

By the 18th century, the term "statistics" designated the systematic collection of demographic and economic data by states. For at least two millennia, thesedata were mainly tabulations of human and material resources that might betaxed or put to military use.

统计学最开始来源于经济学和政治学。17世纪的经济学家William Petty和他的《政治算术》一书揭开了统计学的起源(维基百科):

The birth of statistics is often dated to 1662, when John Graunt, along with William Petty, developed early human statistical and census methods that provided a framework for modern demography. He produced the first life table, giving probabilities of survival to each age. Hisbook Natural and Political Observations Made upon the Bills of Mortality usedanalysis of the mortality rolls to make the first statistically basedestimation of the population of London.

所以从一开始,统计学就跟经济学、政治学密不可分的。

而新中国成立初期,随着计划经济的施行,确切的了解国民经济运行情况是政府最关心的问题之一,所以统计学这个时候被理解为“经济统计”是再正常不过的了。所以从历史上看,统计学一开始是作为经济学的二级学科而存在的。

这也就成了现在“统计学”这门学科的乱象:即可以授经济学学位,又可以授理学学位。授经济学学位的“统计学”更偏重于跟国民经济核算相关的内容。从培养方式来讲,这和数理统计的培养方式会有很大不同。为了进行正常的国民经济核算,除了要掌握基本的统计知识,包括抽样理论等,还要掌握会计学以及一些经济学的知识。具体的,比如GDP、GNP、CPI、PPI是怎么计算出来的,以及投入产出表等,都是这类统计学的专业内容。不懂会计、经济学,很难搞明白这些东西。这类专业最对口的是会计、统计局、调查所这些地方,因为学科设计出来本来就是为了核算的。

然而,随着科学技术文化的飞速发展,传统的“统计学”已经远远无法满足需要了。因此,在过去一百年间“数理统计”这个词出现并不断发展,同时也促进了让统计学脱离经济学这个小范围,迈向了更大的应用空间。“数理统计”逐渐发展为一个跟数学密切相关,并且侧重于非“经济统计”的学科。

统计学发展的另一个源头就是概率论。

16世纪初,概率论的体系渐渐发展起来,而这要从一种和掷骰子有关的赌博活动说起。虽然这个活动并不是很光彩,而且有待考证,但是在欧洲兴起并兴盛的骰子赌博活动,引起了一批好奇的学者的关注。掷骰子得到的点数直接决定赌局的输赢,于是开始研究各种点数出现的机遇的大小,胜率的大小,最早开始数量研究并且给概率下定义的学者已经无从考证了,可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响,比如卡丹诺的《机遇博弈》、惠更斯的《机遇的规律》、伯努利的《推测数》、著名的分赌本问题、帕斯卡和费马之间的通信等等,在这期间,古典概型得到了极大的发展,概率、期望、二项分布、中心极限定理等概念被相继提出。而之后的几百年里,中心极限定理的渐渐完善的过程中,一系列的统计量相继被提出,这也构成了大样本方法的基础。

概率论是统计学的基础,统计学是概率论的发展,二者密不可分。可以认为统计学是概率论的应用,是强调统计推断,包括统计决断、估计、检验等问题的一门学科。

统计里更加关注的是数据与模型。模型就是变量与响应之间的关系,简单的比如线性回归模型,时间序列分析里的ARIMA GARCH模型,复杂的如SVM或者深度学习里的CNN、RNN等。这些模型的范围是什么?适用于怎样的数据类型?除此之外,统计学还要回答,在给出数据以后,这些数据能不能用上面的模型进行分析?这里就有各种假设检验,模型参数检验,数据分布的非参数检验,数据均匀性的均匀性检验。最后,统计学还要回答各类模型预测的效果怎么样,数据要怎么获取更省钱或者让模型效果更好,怎样更节约的使用数据,等等问题。

2、概率论

概率论是一门数学学科,是一套公理化的纯数学理论,他有严格的公理基础,里面的结论都是用严格的数学推导做出来的,如果可能的话大概全部可以转化为形式逻辑的符号语句。这样,相对来说,前面的统计学就更像一门经验科学了,它主要是对现实生活中的数据进行分析,找规律,然后预测未来走向。在找规律的过程中,有时候就可以用概率论的语言去描述,比如这一堆数据满足个什么分布,或者看上去像是某个随机过程,然后就可以用概率论的方法去处理。

数学里更加关注的是结构,映射,以及它们的性质与关系。比如在一个集合有了一个特殊的拓扑结构和代数结构以后,比如局部紧李群,能不能在上面定义一个测度?这个测度有怎样的性质?这个测度和数学里其他的东西有怎样的联系?这些都是数学家关心的问题。

3、数理统计

如果你是一个工科学生,你很可能学到的一门课程是“概率论与数理统计”,然而数学专业则往往将这两个关键词分开,“概率论”和“数理统计”是两门不同的课程。

数理统计就是通过对随机现象有限次的观测或试验所得数据进行归纳,找出这有限数据的内在数量规律性,并据此对整体相应现象的数量规律性做出推断或判断的一门学科。概括起来有如下几方面的特点:

  • 一是随机性,就是说数理统计的研究对象应当具有随机性,确定性现象不是数理统计所要研究的内容。

  • 二是有限性,就是说数理统计据以研究的随机现象数量表现的次数是有限的。

  • 三是数量性,即数理统计以研究随机现象的数量规律性为主,而对随机现象质的研究为次。

  • 四是采用的研究方法主要为归纳法。

  • 最后,数理统计通过对小样本的研究以达到对整体的推断都具有一定的概率可靠性。用样本推断总体误差的存在是客观的,但是数理统计不仅重在研究误差的大小,还指出误差发生的可能性的大小。

因此,从数理统计的学科特征来看,数理统计是应用数学的一种,并且是目前最为活跃的分支之一。由此,数理统计从学科划分来说,应属于数学学科,但是其重在应用,而不是纯数学理论或方法的研究,故其采用的方法也就重在归纳法,而不是数学的演绎法。

综上,数理统计的主要特点可以用一句话概括为:数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数量规律性做出具有一定可靠性推断的应用数学学科。

4、统计学、概率和数理统计的辨析

看到上面的这些说法,加上几个学科的快速发展和应用,很多时候大家往往都不加区分的将这些概念混淆起来,特别是在应用的时候,很多时候也都无伤大雅。但是,一旦我们深入研究,特别是看国内外相关文献的时候,还是要加以区分的。否则,拿起两本类似书名的书,很可能里面的内容是大相径庭的。

我们先来看看统计学和概率论。

简单来说,概率论研究的是“是什么”的问题,统计学研究的是“怎么办”的问题。

统计学不必然用到概率论,比如用样本均值来表征总体某种特征的大致水平,这个和概率就没有关系。但是因为概率论研究的对象是随机现象,而统计学恰恰充满了无处不在的随机现象:因为要随机抽样。因此概率论就成为了精确刻画统计工具的不二法门。

概率方向更偏数学,统计更多应用。很多大学里的科研,概率和统计都不是一个组(更有甚者,有的大学统计单独成立一个学院,独立于数学学院)因为大家做的东西确实不太一样。

再举例来说,如今火热的金融数学,就属于概率方向的,大家本科的概率论只能算是最基础的课,其他像Stochastic Calculus,Random Model,Markov Chain,Martingale,测度论,以及一直比较火的时间序列分析等等,这些都是学概率方向研究的,不是数学系出身,你几乎很难入门。而统计则更多作为应用的科学,常见的分支有生物统计,医疗统计,经济统计等等。

现在统计学火热一方面是如今各行各业都需要数据分析,大数据更是被吹上了天;另一方面统计入门门槛相对一般数学系专业更低,简单的说,非数学系要求的数据分析,用个SPSS,SAS啥的也就够了,但凡你学过高数,概率论,捣鼓捣鼓也没那么难理解,非数学系了解常见分布,看得懂置信区间,p-value,再来些F-test,t-test就差不多了。当然,数学系的统计就没这么容易了,数学系的统计常见的会研究各种分布,Bayesian统计,神经网络,金融风险,时间序列分析等等,用的软件也肯定是R居多。

Larry Wasserman在他的统计学巨作All of Statistics的序言里有说过概率论和统计推断的区别,如下图所示。

它们之间的区别包括:

  • 概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质;

  • 而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。

因此,统计和概率是方法论上的区别,一个是推理,一个是归纳。


打个比方,概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)

而概率论中的许多定理与结论,如大数定理、中心极限定理等保证了统计推断的合理性。做统计推断一般都需要对那个黑箱子做各种各样的假设,这些假设都是概率模型,统计推断实际上就是在估计这些模型的参数。

概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判断是由什么样的模型产生的。


再从小概率事件看看两者的关系:概率论会说小概率事件必然发生。因为随着试验次数的增多,该事件会发生的期望终会为1。统计则倾向于忽略小概率事件或者认为小概率事件不会发生。例如最大似然估计,估计的就是一个以假设值代替真实值的过程,这个过程一个自然的思想便是认为小概率不会发生,所以我们有充足的理由认为估计是可接受的。

再来看看数理统计与统计学之间的差异,主要有以下几方面(吴喜之):

  • 从其研究目的来看,两者都重在揭示总体现象的数量规律性,而统计学更声称要以对总体现象的定性认识为基础。

  • 从其研究的途径来看,数理统计希望通过对总体部分个体的数量特征的研究,以达到对总体相应数量特征的认识;而统计学既希望通过对构成总体的全部个体的数量特征的研究,以达到对总体相应数量特征的认识,同时也希望能通过对构成总体的部分个体的数量特征的研究,以达到对总体相应数量特征的认识。

  • 从其研究的手段来看,数理统计主要依赖于小样本特征值统计分布的数学原理来推断总体的相应特征值;而统计学或者说推断统计学主要依赖于大样本特征值统计分布的数学原理来推断总体的相应特征值。

  • 从其研究的主要范围来看,数理统计侧重于对样本数据的定量分析;而统计学不仅重视样本数据的定量分析,而且重视对所获得的总体全部数据的定量分析,同时,重视数据收集方法、数据整理方法的研究。

  • 从其利用样本数据对总体进行推断的数理机理而言,概率论是其共同的基础。特别是作为统计学基本方法之一的大量观察法,其数理基础正是概率论中的大数定律;统计学中用大样本可以方便地推断出总体特征的数理基础正是概率论中的中心极限定理,而无论是大数定律还是中心极限定理也都是数理统计的根基。

从上述数理统计与统计学的特点及其比较,可以清楚地看到,随着现代统计学的发展及其在社会政治经济生活中发挥作用越来越大的趋势,数理统计研究问题的理念及其方法已对统计学的发展产生重要的革命性影响,但是,数理统计与统计学还是两门差异较大的学科,不可能简单地加以混淆。

4、统计是数学吗?

最后再来说说统计是不是数学的问题。这个问题如果问上世纪末某统计大牛A,他会很坚定的说统计是数学。如果又问某著名大学统计系领导B,他会不屑的答曰,不算,因为统计是微积分。

我们在学习统计的时候,特别是在推导概率分布的时候会发现,统计上用微积分证明的地方太多。但是统计对于数学的其他方面,比如拓扑,数论等基本完全不涉及。因此,首先数学是比统计更加宽泛的学科。

第二,统计和概率论是平行的两个不同的理念。概率论是假设你已经知道了整体然后对一个事件的发生概率进行计算。而统计是指你不完全理解整体,你的目的就是为了理解整体的。但是整体的数量太大。所以你退而求其次,用抽样的方法来获得理解整体。但是抽样就意味着有误差,而误差有的时候会因为你抽样方法的选择或者随机事件的爆发而变的很大。这点在数学上很多人不能接受,数学更讲究精确。而且对于很多学数学的人来说,只有对或者错。例如抽象代数。所以数学上有一部分人不喜欢统计,会说统计是变魔术。

总的来说,一个可以接受的观点是:概率论是纯数学,数理统计是应用数学,而统计学则是借鉴了概率论和数理统计的一门超级应用学科(数学)。

随着大数据和数据科学时代的到来,这几个学科将会有什么样的进一步发展,让我们拭目以待。

最后给大家留一个小问题:你能区别probabilistic、random和stochastic吗?




http://blog.sciencenet.cn/blog-242272-1036214.html

上一篇:谈谈我心目中的Liberal Arts
下一篇:通知 |《数据科学通识导论》课程导览

22 杨正瓴 邵鹏 杨波 赵克勤 任文龙 毛宏 陈学雷 李楠 强涛 徐传胜 李泳 周洲 郭景涛 付小军 康建 王兴民 王天一 ericmapes xlsd sunnyzhu sunjian1016 Atrichum

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...

Archiver|科学网 ( 京ICP备14006957 )

GMT+8, 2017-8-21 04:58

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社