JohnXie的个人博客分享 http://blog.sciencenet.cn/u/JohnXie

博文

杂谈常用的概率分布(common probability distributions)

已有 8657 次阅读 2022-6-18 21:05 |个人分类:数理统计的基本概念|系统分类:科研笔记


 概率分布是相对随机变量而言的。所以,谈概率分布首先要说什么是随机变量。让我们从小学的数学算术题入手来谈这个复杂的概念。

对一个正常健康的成人来说人人都会算3+2=5 。进一步如果我们用Y来代表某一个数,那么Y+2=5,Y等于多少呢?这也太容易了,很少会有人做不出Y=3的正确答案。再进一步,如果用X来代表另一个未知数,那么X + Y = 5的话, Y等于多少呢?这一下可能会让一些人作难了。这时候数学家就要站出来说话了,首先把这个式子改头换面一下,写成Y = 5-X,然后,我们就可以说,Y的值取决于X的取值;只要你给我一个确定的X的值,我就可以还给你一个确定的Y值;所以,Y在这种情况下不是一个确定的数,我们把它称作‘变量’。当然,X也是一个变量。以上我们讨论的都是所谓的非随机变化的数学问题(deterministic problem)。如果我们按代数的标准方式表达Y = f (X),则所有X变量可能的取值范围就是‘定义域’,所有Y变量可能的取值范围就是‘值域’。

好,现在我告诉你,X的取值是服从一个概率分布,比如正态分布(normal distribution)这样一个规律;可写作X ~ N(μ,σ2),其中μ和σ2是两个可以完全定义正态分布的参数,μ叫做期望值(expected value),σ2叫做方差(variance)。于是,我们就称X是一个随机变量。因为Y = 5-X,如果X是一个服从正态分布的随机变量,Y也是一个服从正态分布的随机变量;Y与X的差别只是在期望值上,Y的期望值是5-μ。这里一下子我们从讨论非随机变化的数学问题(deterministic problem)跳到了涉及随机变量的数学问题(stochastic problem or a problem involving random variables)。

因此,如果一个变量它的取值结果是服从于某个概率分布的,这样的变量就被称作一个‘随机变量’。

于是你就会要问,那么这概率分布究竟是什么东东?好,我们不去涉及定义概率的哲学层次的考虑,仅仅从标准的概率论的角度来定义概率分布。标准的概率分布定义包括三个要素(英文有一个很吓人的名称‘概率空间’probability space, probability triple):(1)一个随机事件;(2)这个逻辑上定义好的随机事件所有可能的数量结果;(3)该随机事件所有可能的数量结果对应的可能性/倾向度/概率的值。请注意,这是我把数理统计教科书用来定义概率分布的严格的数学语言用日常语言变通的一种表达。我们通过举例来更容易地理解领会‘概率空间’所表达的概率分布定义。

假定我们有一个标准的立方六面体的色子每一面对应一个1 到6 的阿拉伯数字。我们定义一个随机事件:掷出色子并读取向上一面的数字;对应的所有的可能的结果是:{1,2,3,4,5,6};结果对应的可能性/倾向度/概率为{1/6,1/6,1/6,1/6,1/6,1/6}。这就是一个离散随机变量的均匀分布(discrete uniform distribution)的例子。

现在假定我们有两个标准的立方六面体的色子,而我们要定义的随机事件的实验设计如下所述。每次掷出这两枚色子后读它们取向上一面的数字并加总;如果结果为6或比6小则说‘这是个小的结果’,否则为‘大的结果’。当然这是一个可以用作通过‘大’或‘小’的不同随机结果进行赌博的事件。随机变量为在完成n次上述实验后结果为大的次数X。根据这个随机事件的实验设计我们知道其对应的所有可能的结果为:{2,3,4,5,6}=“小“,{7,8,9,10,11,12}=”大“,如果进行了n次实验,x={0,1,2,…, n};p1.png

更直观一点让我们来看一看下面这个通过所谓的帕斯卡三角形(Pascal’s triangle,只展示了头七行,up to the first 7 rows)来说明二项分布(假定 p=0.5)所代表的随机事件的结果的概率是怎样计算出来的。当n=1时,这是伯努利分布(Bernoulli distribution),随机变量X只有两种结果x=0或x=1,当然P(X=0) = P(X=1) = ½=0.5。当n>1时,就成了二项分布(因此伯努利分布是二项分布的一个特例),其概率分布为 帕斯卡三角形的对应的行的数值除以行数值的加总。比如,当n=2时,二项分布为P(X=0) =P(X=2) = ¼; P(X=1)=2/4。当n=3时,二项分布为P(X=0) =P(X=3) = 1/8; P(X=1)=P(X=2)=3/8。当n=5时,二项分布为P(X=0) =P(X=5) = 1/32; P(X=1)=P(X=4)=5/32, P(X=2)=P(X=3)=10/32,等等。

至此,通过观察帕斯卡三角形显示出的对称规律可能有读者会产生一个想法,当n无限增大的时候,二项分布是否会变成了著名的正态分布呢?你的猜想完全正确 – 理论已经证明了在满足np > 5及n(1-p) > 5的条件下,二项分布随着n值的加大就越来越逼近正态分布,当n趋于无穷大时二项分布就成了正态分布。而当n值很大但p值很小时,随着n值的加大二项分布就逐渐逼近一个期望值μ=np的泊阿松分布。

如果我们在上述的抛掷双色子的例子的随机变量X从另一个角度定义一下,考虑X为在n次实验中出现“小“的次数达到一个预设好的数m次时我们获得”大“的结果的概率分布为何?这就成了负二项分布(negative binomial distribution);进一步,若m=1,则这个负二项分布的特例被称作几何分布(geometric distribution)。

现在让我们来讨论一下这样一个实际生活中可能遇到的问题。情景一:一条自动化生产线的产品的质量控制。如果我把每小时所记录到的次品的数量作为随机变量来分析,首先我们想到的会是用泊阿松分布(Poisson distribution只需要一个参数μ=期望值来定义)。可是如果我换一个角度来研究这个问题,以每两个连续出现的次品的间隔时间作为随机变量,则对此同样问题的研究所用的就是指数分布(exponential distribution,同样也只需一个参数来定义)了。其实针对同一个问题的泊阿松分布与指数分布就是等同于一个硬币的不同的面,互为表里。情景二:我要研究某高速公路收费站的交通流量问题。于是在收费站对所通过的车辆数量进行统计分析。类似地我们可以通过把一个固定的时间间隔内(比如每10分钟)通过的车辆数作为随机变量,按泊阿松分布来做分析;或以每两个连续通过的车辆的间隔时间作为随机变量从指数分布的角度进行分析。但问题来了,不论是泊阿松分布还是指数分布都要求假设通过的车辆彼此是互不关联的,比如时不时有来自同一个单位的几辆车通过收费站,这种情况就违反了泊阿松分布及指数分布的应用条件。这时我们可以让泊阿松分布的参数不再是一个常数,例如让Poisson(μ)中的μ服从一个Gamma distribution(伽马分布),则理论上可以证明这样一个复合分布的结果是一个负二项分布(negative binomial distribution)。概率论的理论还告诉我们指数分布其实是伽马分布的一个特例。伽马分布由两个参数定义,一个是形状参数(shape parameter),一个是比例参数(scale parameter),当其形状参数=1时,伽马分布就成了一个指数分布。

十年前我在昆士兰理工大学工作时有机会研究工程设备的可靠性问题(reliability analysis for engineering assets),作可靠性分析主要是分析设备零部件或系统的使用寿命,统计分析部分用到最多的就是用指数分布或韦伯分布(Weibull distribution)对设备的风险发生率(hazard rate)作拟合。与伽马分布一样,韦伯分布也是由形状参数(shape parameter)和比例参数(scale parameter)来定义,而当形状参数=1时,韦伯分布也成了一个指数分布。理论上有一个广义的三参数的伽马分布,而两参数的伽马分布和韦伯分布都是广义伽马分布的特例(both Gamma distribution and Weibull distribution are special case of the generalised Gamma distribution)。所以伽马分布和韦伯分布就是“兄弟关系”。

篇1.png

数学里的贝塔β函数也是基于伽马函数来定义的,而概率论里的贝塔分布又是借助贝塔函数来定义的。贝塔分布(Beta distribution)由两个参数来定义,它的极限形式(当两个参数都是无穷大时)就成为了正态分布;当两个参数都等于1时,贝塔分布就变成了取值范围为0到1 的连续型均匀分布(continuous uniform distribution)。

在我们的日常生活中凡是涉及对某个具体目标进行控制的努力,其控制效果的好坏可以用标定值与实际值的偏离程度来衡量,在统计数据分析里就是看所有离差平方值的和的大小(SSE = Sum of Squared Errors)。由于离差的形成是我们人为控制的结果,许多的无法控制的因素使得离差呈正态分布。或者说大量同质独立事件对某一个受控事件发生结果的叠加影响在统计规律上是一个正态分布。如果一个随机变量X是服从正态分布的,那么概率论告诉我们X2 也是一个随机变量并且它服从卡方分布(Chi-square distribution)。而当我们需要比较两个以上的方差项的时候所应用的F分布(F distribution)实际上就是两个Chi-square项的比值。当然,正态分布在统计数据分析的主导角色也离不开中心极限定理的功劳。以下几段关于中心极限定理的文字拷贝/粘贴自“女士品茶”的中文译本:

(以上译文摘自中国统计出版社翻译的“女士品茶”一书第九章,特此鸣谢!)

p1.png

当我们的研究问题涉及到测量浓度的情况下,对数正态分布(lognormal distribution)往往是合适的。如果我们有一个随机变量X,定义另一个随机变量Y=log X,如果Y服从一个正态分布,那么X就是服从所谓的“对数正态分布”。

当我在1997至1999年在奥克兰大学读数理统计学硕士课程时,学习概率分布理论时一点一点地领会到了各种概率分布之间的关系及它们与现实生活应用场景的联系,我就尝试着把它们用一张框图表示出来,当时正好学了如何用SPlus软件绘图又如何用LaTeX把文字与图表制作成一个文本文档。于是就有了下面的第一张用来总结常用概率分布的框图。到了我读博的时候念到Casella和Berger的Statistical Inference 【1】这本书的附录页发现了下面的第二张总结概率分布的框图。虽然我的总结显得比统计教授们的总结要幼稚了许多,但其精髓部分却是有了的,所以我还是挺高兴,觉得自己的思路是对的,只是水平未到。

我注意到/拜读了杨老师的博文:科学网现实中常见的概率分布 - 杨正瓴的博文 (sciencenet.cn)因为我所谓的“常用的概率分布”是以Casella和Berger书中的总结框图为参考基准,所以有些杨老师博文中提到的分布并未在此博文提及。比如,极值分布(probability distributions of extreme values)就是一个很重要(对大多数人不一定是常用)的概率分布话题,我虽然工作中未有更多的机会研究与应用极值分布,却也有一两本好的参考书【2】【3】,仅此列出供有兴趣的博友/读者自行按图索骥深入探求了。

结语:我们在科学研究中应用统计分析来探寻答案的时候,如果需要用到随机变量的概念,请一定首先问问自己:我的这个随机变量是如何定义的,它的概率空间是什么呢?否则你大概并没有真正清楚自己做的统计分析究竟是在做什么。


【1】 Casella, G. and Berger, R.L. (2002). Statistical Inference.  The Wadsworth Group, Thomson Learning Inc., 2nd edition.

【2】 Krishnamoorthy, K. (2006). Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC.

【3】Reiss, R.-D. and Thomas, M. (2007). Statistical Analysis of Extreme Values: with applications to insurance, finance, hydrology and other fields. Birkhäuser, 3rd edition.

 




https://blog.sciencenet.cn/blog-3503579-1343548.html

上一篇:时间是什么?
下一篇:我五十年前学到的‘常识’
收藏 IP: 49.187.152.*| 热度|

10 李宏翰 张学文 黄河宁 尤明庆 朱晓刚 郑永军 查宏光 杨正瓴 孙颉 马鸣

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 19:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部