|||
【英文原文地址:http://blog.sciencenet.cn/blog-1565-665359.html】....
比之教程(1)中的“笨重”的直方图,我们将使用解析函数来代替,此解析函数谓之概率密度函数(probability density function) 。从我们使用者的角度看,概率密度函数只不过是直方图的连续化。一个众所周知的例子,是高斯密度函数,如下:
$p(x)\sim \frac{1}{\sqrt{2\pi}\sigma}exp[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}]$ (1)
方程(1)代表了我们熟悉的钟形曲线。这个函数有很多优良性质,我们后文探讨。
然而,我们首先要处理一件事:一旦我们引入连续的实函数,数学上马上就碰到问题。
将方程(1)作为概率密度函数是个好的方式吗?引入一个实数变量,则意味着在其取值范围中引入了“无穷”多的数。这里有两种“无穷”:一种,谓之可数无穷,比如整数序列 {1, 2, 3, . . . ∞} ;而另一种,叫不可数无穷,比如实数变量。这件事,最好用一个芝诺悖论的现代版本来解释:“10步之外,有个美女,玉体横陈,你要一亲芳泽。你必需先走5步,完成一半路程;再走2.5步,完成剩余的一半的一半;再走1.25步,完成剩余的剩余的一半的一半的一半...顺着这个辩论思路,你将寸步难行,则美人永不可触。而其原因,在于一个用实数代表的距离,可以无穷地细分。”(注1)换种说法,任意一个实变量的所在的某个区间的任何子区间似乎包含了和原来区间一样多的点。对数学家而言,这是个真正的问题。
事实上,19世纪著名的数学家,集合论的创立者G.康托(G.Cantor)就是被这个悖论搞到神经失常(实际上,康托同学是被领导和老师克罗内克搞成神经的。译者注)。自然而然,当你想讨论一个实变量的概率密度函数的时候就会有真正的麻烦。你咋给那些既数不完,也数不出来的“点”们“分配”概率呢?测度论就是为解决这个难题而搞出来的。概而言之,我们扔掉了实数区间上某些点的子集(我们谓之为“测度零”的子集),留下那些“可数的无穷多”的子集,并给它们分配概率,这样我们就可以定义概率了。这种处理办法的美妙之处,不仅仅是保持了数学的严谨,而且,对那些完全不学测度论的科学家和工程师,这种处理还和他们学习和使用的概率论保持了一致。更为重要的是,我们所熟悉的那些数学工具,比如微积分,都可以用来处理概率中的问题了(比如概率密度函数),因为我们知道,现在与概率有关的数学是被严格定义了的,可以放心大胆使用。简而言之,皆大欢喜。
在我们谈论随机过程之前,先讲讲另一个特别的实变量-时间 。直觉上,一个随机变量总是随时间变化。因此,对于一个时间上连续的随机过程,如果我们将之看为每一个时间点有一个随机变量,则我们会有不可数的无穷多的随机变量,因为以实数表示的时间轴上有不可数的无穷多的点。在测度论的处理中,我们必需处理随机过程中的这一问题。这一奠基性工作的辉煌标志是1953年J.Doob的教科书。但是,这严谨的处理和理论化的测度论术语使得学工程的学生倍感艰深。
但是,对于我们这些实践者,不用再担心测度论的理论问题了。我们只需要知道不用测度论的概率论已经有了严谨而和谐的数学基础。知道前面测度论的理念以及相关术语,对我们来说就够了。所有的数学工具,比如微积分和代数,都可以放心使用。因此,完全可以写一本不用测度论的概率和随机过程的教科书。1957年, Davenport 和 Root的著名教科书就是这样写成。我们也是按照如此思路展开后面的博文写作。(我得跟数学家们道歉,因为我对测度论的不严谨描述看起来野蛮而无礼。)
说回高斯随机变量:
1.仅两个参量,均值$\mu $,方差$\sigma $,就足以描述高斯密度函数(对于多维的高斯随机变量,以矢量表示,我们就使用均值矢量和协方差矩阵,也仅仅涉及有限数目的参量)。这将使计算大大化简。严格些讲,方程(1)表达的高斯型随机变量的取值可以取(-∞, +∞)连续域的任意值。
2.关于为何在大自然中常常碰到高斯型随机变量,既有经验总结,也有理论依据。中心极限理论对此的解释是当大量的随机变量彼此非常复杂地相互作用的结果,将使一个表达总的作用的随机变量趋于高斯分布。(中心极限定理还要求这些相互作用没有哪一个或者哪一种占主导地位,才能趋于高斯分布。译者注)
3.如果你仅仅只有一个随机变量的均值和方差的信息,那么,假设这个随机变量是高斯型的是最靠谱的。
4.一个通常最为有用、极端困难的待解问题是:如果给定函数$y=f(x)$的显式表达,也知道有逆函数(即有一个$x=f^{-1}(y)$的显示表达式存在);并且,x是已知其概率密度函数的随机变量;y当然是个随机变量,那么,y的概率密度函数是什么呢?换言之,已知一个系统的输入,其输出是什么呢?系统理论科学家知道这个业内隐私:在业内这是个价值64000美元的问题。关于应用数学另外一个隐私是,这个问题在教科书上甚少强调。尽管如此,如果函数f是线性的,而x是高斯型的随机变量,则y也是高斯型随机变量,而且其期望和方差极易计算。Kalman滤波器就是依此而获得成功的。
基于这些理由,只要我们没有获得特别的信息,我们就会假设我们在真实情况下碰到的随机变量都是高斯型的。事实上,有些噪声我们明明知道不是高斯型的,但是依然在大量的情况下使用大名鼎鼎的Kalman滤波器。基于相似理由,在一般应用中,我毫不犹豫就会使用高斯密度函数来近似随机变量的概率密度函数。比如在教程(1)的图1中的直方图,(看起来跟钟的形状偏得有点远),我也会采用高斯密度函数来近似。
还有些概率密度函数有好些不错的性质,对采用离散变量的离散事件系统极为有用,它们是泊松概率分布函数( Poisson probability distribution function )和幂指数型密度函数(exponential density function)。这些我们将押后探讨,另文介绍。
有了这些背景,下篇博文,我们可以讨论随机过程了。
注1.一个非常现实的工程师对这个悖论的回答是:“管他悖不悖论,我只管靠得够不够近!”
译者说明:关于“无穷”的解释,在科学网上极易引起争议,也可能会误导。译者翻译时也有稍稍修改,何老自己也说是“野蛮”的,所以大家理解一下意思就好了。毕竟非专业的数学人士,这个问题没必要也没足够能力纠缠。(何老所描述的性质,有理数也有,依这里的篇幅是没办法展开说的。)
教程链接:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 16:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社