|
解析概率论
葛维亚
概率论是研究随机变量的数学。在随机试验中, 各变量的一致性、独立性相同的条件下,可以重复进行,但一个特定的样本空间获得的结果是不确定的,它专门探索产生不同数值的概率。概率论也是研究随机现象规律性的数学分支,它在我们的日常生活中无处不在,无论是天气预报、水文预报,洪峰设计值,水利工程的寿命还是效益判断,都离不开概率论的应用。本文将从数学的角度,深入解析概率论的基础概念和原理。
古代的埃及人经常聚集在一起玩一种叫做 “猎犬与胡狼” 的游戏,实际上就是今天的掷骰子游戏,相对面的数字之和是 7 的骰子大约产生于公元前 1400 年的埃及,骰子就是游戏中常用的随机发生器,这类游戏也叫做机会性游戏。17 世纪中叶,人们开始对机会性游戏的数学规律进行探讨。它的发展与数学史上一些伟大的名字相联系,如帕斯卡、费马、惠更斯、詹姆斯、伯努利、棣莫弗、拉普拉斯等。
1654 年,费马与帕斯卡的通信中关于分赌注问题的讨论被公认为是概率论诞生的标志。当时的约定为“两个赌徒相约赌若干局,谁先赢 s 局就算赢了,当赌徒 A 赢 a 局 (a < s),而赌徒 B 赢 b 局(b < s) 时,赌博被迫中止,应该怎样分配赌注才合理?” 在三年后,惠根斯亦用自己的方法解决了这一问题,并写成了《论赌博中的计算》一书,这就是概率论最早的论著,他们三人提出的解法中,都首先涉及了数学期望(mathematical expectation)这一概念,并由此奠定了古典概率的基础。数学期望在系列随机变量为正态分布时就是的平均值,为非正态分布时可能就是平均值的不偏估值。
1713 年,伯努利的遗著中发表了概率论中的第一个极限定理——伯努利大数定理,即 “在多次重复独立的试验中,事件发生的频率有越来越稳定的趋势。” 这正是频率稳定性的定理形式。到了 1730 年,法国数学家棣莫弗出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。这就是概率论中第二个基本极限定理的雏形。接着拉普拉斯在 1812 年出版的《概率的分析理论》中,首先明确地对概率作了古典的定义。另外,他又和数个数学家建立了关于正态分布及最小二乘法的理论。后来,布阿松将伯努利大数定律做了推广,研究得出了一种新的分布,就是布阿松分布。概率论发展到 1901 年,中心极限定理被严格的证明了,数学家们利用这一定理第一次科学地解释了为什么实际中遇到的许多随机变量近似服从以正态分布。后期的中心研究课题则集中在推广和改进伯努利大数定律及中心极限定理,比如柯尔莫戈洛夫的概率公理化结构、以几乎处处收敛定义的强大数定律、林德伯格 - 费勒中心极限定理等等,另一方面,一些数学家将兴趣逐渐转向研究随机现象随时间演变过程的规律性,衍生出另一门重要的学科——随机过程。
目前,以概率理论作为基础的学科很多,而最典型的莫过于统计学。通过引入 “随机变量” 的定义,可以将抽象的样本空间映射到实际空间中,使我们能够较好的用数学方法处理任何数据格式。概率论中另一个重要的定义则是“条件数学期望”,让人们在做推断的时候想到了利用经验信息,由此发展出来的贝叶斯统计,现在可以用到任何领域。
独立同分布场合的大数定律为一类参数估计奠定了理论基础,因为在简单随机抽样下得到的样本正好是独立同分布的,按照 “样本矩依概率收敛到总体矩” 的思想,矩法估计方法诞生了。这正是为什么我们用样本均值去估计总体期望的原因,它也启发人们用概率论的想法构造模型从而实现数值计算,比如蒙特卡洛方法。此外,参数估计中最著名的极大似然估计方法(MLE)则是来源于对已经发生的随机事件的概率的假定,人们承认一次观察中出现的那些样本就是最有可能出现的样本,极大它的概率得到了参数的估计,MLE 是目前十分流行的参数估计方法。反过来,利用 “小概率事件在一次试验中实际不发生” 的原理,人们实现了假设检验,方差分析、相关分析、卡方检验、秩和检验等都是基本的假设检验方法。
中心极限定理则解释了为什么正态分布在统计中占有不可替代的地位,也告诉我们现实当中什么样的数据可以认为是正态的。自从高斯认为误差服从正态分布以后,到今天,在正态总体下建立的许多估计方法和检验方法非常成熟,例如回归分析、判别分析、因子分析等等。同时,在非正态总体下,许多参数估计和检验也是稳健的,基于样本均值渐近无分布的参数方法的理论基础正是中心极限定理。但是,没有参数方法适用于处理名义变量或次序数据,因此而发展起来的就是非参数统计,典型的方法如列联表、秩检验、核密度估计、局部多项式等等。介于二者之间则是半参数统计了。
进一步而言,概率论主要研究以下基本问题:
1. 随机现象的建模:概率论通过定义概率空间来描述随机现象,包括样本空间、事件和概率测度。
2. 随机事件的概率计算:研究如何计算各种随机事件的概率,包括简单事件、复合事件和条件概率。
3. 随机变量的性质:研究随机变量的数学性质,如期望、方差、协方差和相关系数,以及它们的概率分布和密度函数。
4. 大数定律和中心极限定理:研究随机变量序列的收敛性质,包括几乎必然收敛、依概率收敛和依分布收敛。
5. 极限定理:研究随机变量序列的极限分布,特别是当样本量趋向于无穷大时的行为。
6. 马尔可夫链:研究具有马尔可夫性质的随机过程,即未来状态仅依赖于当前状态而非过去状态的随机过程。
7. 随机模拟:利用计算机生成随机数和模拟随机现象,以估计概率和进行统计推断。
8. 概率论的公理化体系:研究概率论的公理体系,包括柯尔莫哥洛夫公理和其他公理化方法。
9. 概率论的应用:将概率论应用于各种领域,如统计学、金融数学、量子力学、信息论和人工智能。
概率论在水文水资源领域的应用也极为广泛,例如建立水资源紧缺程度评价模型;建立河流干旱趋势的模型;探求水利工程设计与校核方法;以标准差判断水位流量关系曲线的定线精度;从概率论出发,确定置信水平与标准差,相对误差的关系;分析水位流量关系测点标准差与样本标准差的差别,借以利用标准差来判断水位流量关系的定线精度等等。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-7 12:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社