|||
2010.6.18说明基于本文在其它网站有一定的浏览量,现在转帖这里。物理学第0定律是我大胆給它起的名字-张学文
2007年1月的说明
本人2003年的《组成论》的第10章被人贴到一个论坛上,这一章看似废话,却真的有人感到它的新颖性,加之它的公式不多(忽略了),而谈认识多。故我把它放到这里供朋友参考。
有兴趣了解《组成论》的人可以看我的个人网站的组成论电子版 http://zxw.idm.cn/ZCL/zclmulu.htm#第十章概率公理 -张学文07.01.18
苹果熟了要落地,人们对此“熟视”,所以也就“无睹”。可牛顿却从中引出“万有引力”的规律来。
现在的科学家另有眼光,他们热心从别人得不到的数据中寻找规律;但是这并不说明在熟视无睹的事物中不再有尚未发现的规律。
这里介绍的概率公理可能就是因为人们“熟视”,所以长期被“无睹”(忽视)。
概率公理:一次随机抽样中概率最高的事件是最容易出现(遇到)的事件。
第十章概率公理
§10.1谁是新皇帝
17世纪牛顿发现天体和地球上一切物质质点的机械运动都服从他发现的力学原理。这不仅创立了动力学,它也为后来的科学发展树立了一个样板。此后人们忙着对各种客观事实做分析,并且努力用牛顿力学对它的机理做出解释。人们把这些努力都称为科学。是的,牛顿力学的成功使它成了科学领域的皇帝。牛顿力学的成功缩小了神学的领地,扩大了科学的领地。
牛顿力学在哲学上的概括就是决定论,它认为事物的未来都是它的现状、条件和力学规律完全决定了的。
牛顿力学在机械运动中的成功鼓励人们把一切自然现象都还原为力学原理。但是恩格斯在19世纪就批判过这种机械论的哲学观点,到了20世纪量子力学、概率论、信息论等众多新的科学学科的出现动摇了牛顿力学在科学中的至高无尚的地位,统计学的无孔不入,概率论的科学地位的提高、用波函数说明原子内的运动、不确定原理、混沌理论以至确定性的规律中也出现了有随机性的解等等都在冲击决定论模型。人们从不同的侧面发现了客观事物中的随机性的重要性。于是一种新的哲学观点,一切客观事物具有的随机性的哲学观点时兴起来。
20世纪众多新学科的出现,形成了对决定论的挑战。这些新旗手大多打着随机论的哲学旗号。但是哲学不能代替科学,在众多的新的科学理论中忽视或者否定牛顿力学的地位是一事情的一个方面,你提出的新理论能够概括多少新事物又是一个方面。这类似于老皇帝拉下来是一件事,拥护谁做新皇帝又是另外一件事。从目前情况看,新的科学理论很多,但是似乎都不具有牛顿力学过去曾经拥有的地位。科学领域今天的局面类似中国某个封建王朝的末期。它在酝酿着新的皇帝出世。
我们应当到那里去寻找新的原理,而它的地位又有能力取代过去牛顿力学原理?
中国封建社会的新皇帝有的世出名门,可也有的出身低微。科学领域的新皇帝要到那里去找?
思之再三,我们提出一个看法:占有基础地位的新原理可能不是非常深奥但用途有限的**论,而是非常浅显但用途很广的无名氏。我们推荐概率公理临时做候选者。
介绍这个新提出的公理,就是本章的任务。说明它有资格占据这个重要地位是本篇和下一篇的任务。
过去决定论的中心是牛顿的动力学,明天随机论的中心很可能是概率公理。
§10.2概率公理
公理可能是首先在几何学中引用的词。一本《数学小词典》解释说:“不加证明而承认其正确性,并用以进一步推出新的结果的一些最基本的命题叫做公理”,如“两个相等的量的每边再各加一个相等的量,那么它们的和仍然相等”就是一个公理。利用鲜明不过的公理可以帮助我们去推证很多不那么直观的规律,如直角三角形的两个直角边的平方和等于斜边的平方--勾股弦定理(商高定理)。
我们把“一次随机抽样中尽管多种事件都可能出现,但最容易出现(遇到)的事件(结局)是概率最高的事件”称为概率公理。这个公理也可以反过来表述:“一次随机抽样中概率最高的事件是最容易出现(遇到)的事件”。
概率公理的表述中用了“一次随机抽样”、“最容易出现”和“概率”这三个词。
“一次随机抽样”是统计学中用的词,它是让你不带主观偏见地从众多个对象中任意地取出一个(有的场合是把一批抽样统一作为一次实验)作为研究的样品。这里的抽样是仅进行一次,也不允许第一次不满意,再把另外的一次做样品。
“最容易出现”这个词含义简单,它带有“实践”的品位。
“概率”这个词含义抽象,带有“理性”的品位。在数学中概率有几种定义,如古典概率、用频率定义的概率、用集合定义的概率以至本书中把百分比定义为概率。
概率的定义固然不只一个,但是概率定义中不使用“容易”这个词。所以“概率最高的事件是最容易出现的事件”并不是概率的定义,而是高概率的事件的一个客观性质、也可以说是一个客观规律性。
由于概率的这个性质、规律太浅显,不仅没有人怀疑它,可也没有特别注意它,以至到今天没有人为它取个名称。我们现在就把这个非常浅显的规律(不是定义)抬举一下,称它为“概率公理”。我们尊它为公理的目的也很明确:利用这个非常浅显的公理推导出最复杂原理。
苹果熟了要落地,因为人们对此“熟视”,所以也就“无睹”。可牛顿却从中引出“万有引力”的规律来。现在的科学家另有眼光,他们热心从别人得不到的数据中寻找规律;但是这并不说明在熟视无睹的事物中不再有尚未发现的规律。
这里介绍的概率公理可能就是因为人们“熟视”,所以长期被“无睹”(忽视)。
统计学的基础是概率论,概率论用什么支撑了统计学?在我看来统计学中很多统计的结论都是基于一个道理:在一次随机抽样中,高概率的事件容易出现。可以说人们已经无意中利用了这个概率公理。
“概率公理”仅是我们临时为它取的名称,是否应当改个更合适的名称?这也是值得考虑的问题。但是现在大家接受上述论断是个不要证明的真理,并且准备应用它也就可以了。
§10.3概率公理的定性应用
本节利用一些生活中的事例说明我们早已经在很多场合无形中利用了概率公理。
从一袋瓜子里任意(别挑,或者闭上眼睛)拿了一粒,可它是坏的。这就是一个事件,根据这个偶然事件如何估计这袋瓜子中坏瓜子占多少(百分比)?
随便拿一个瓜子就是个坏的,说明坏瓜子容易被选中。根据概率公理坏瓜子被选中的概率不是低概率事件而是高概率事件。根据我们对概率的定义,它说明袋子里的瓜子(广义集合)中“坏瓜子占的比例最高”。
记住上面的分析思路,在挑选商品时就不要专挑好的尝,而是任意拿一个,如果它是竟然坏的,你就可以决定不买它了。
根据最近的天气资料,气象预告人员认为明天出现晴天和雨天的概率分别是0.3和0.7,明天那一种天气最容易出现?显然是雨天最容易出现。于是气象预告员就预告明天下雨。预告员作预告的过程就是努力弄清高概率事件是什么。由于概率最高的事件最容易出现,以概率最高的事件做为自己的决策(预告)也就最容易“正确”。
篮球运动员选择什么位置投蓝最容易成功?由于离蓝球框最近时,投蓝成功的概率(命中率)最高,当然是选择概率(命中率)最高的投蓝方式(离蓝框最近)去投蓝。运动员尽量向蓝下钻就是为了要到那里去投篮。到命中概率最高的地方去投篮,最容易出现投篮命中的情况(事件)。钻到“概率最高”的地方去就是为了使“得2分”的事件“最容易”实现----这体现了概率公理。可以说运动员都非常熟练地利用了概率公理,当然,你也可以说概率公理非常浅显,人们都会使用它甚至使用了它还不知道它的存在!这与人们都知道苹果要落地而不知道万有引力定律是类似的。
大夫看病时根据症状认为患者可能患了A、B、C几种病。大夫知道出现B 种病的概率最高,大夫按那种病开药方?他当然以可能性最大(概率最高)的那种病处理。因为患者固然可能得了A病或者C病,但是患者最容易出现的事件是得了B种的病。所以大夫开处方时已经不自觉地利用了概率公理(把“高概率”与“容易出现”划等号)。
发生了案件,警察先是怀疑每个人都可能犯罪,但不能随便抓人。要找出犯罪可能性比较大的嫌疑犯再进一步找出可能性最大(概率最高)的嫌疑犯。最后再决定逮捕他。把犯罪概率最高的人抓起来的,对吗?它最容易“对”(“对”是最容易出现的结局),而把其他的犯罪概率不高的人抓了就不容易对(容易“错”)。
介绍这几个事例是想说明新引入的概率公理实际大家早已熟练地应用于各种场合。人们可能要反问:如果早已经不自觉地定性地利用了概率公理,我们再给它命名,说它是公理,如何重要等等,这岂不是画蛇添足?。下一节要讨论的概率公理在更高的水平上的应用,它会回答这个问题。
§10.4概率公理的定量应用----最大似然原理(方法)
统计学里经常是根据出现的情况(一批试验观测数据)去推断一个结论(如显象管的平均寿命)。这种推断并没有绝对的把握,人们于是退而求其次:以概率最高的事件作为正选答案。
概率公理没有说高概率的事件必然出现,仅是说概率最高的事件是最容易出现的事件,所以不要误以为它就是概率最高的事件必然出现。它的含义仅是比其他的事件容易出现。它与2+2必然等于4是不同的。
实际上如果概率的最高值是0.6,它仅意味着在1000次实验中大约有600次是正确的。如果概率的最高值是0.99999999或者更高,情况就好了很多,它意味着在10次或者1万次抽样中都难得错一次,这已经与必然出现没有什么差别了(在实际的意义下不是理论意义下)。
统计学里有个很高明的最大似然原理(方法)。它的理论根据就是“在一次随机抽样中,认定最容易出现的事件是概率最高的事件”,即概率公理。由于最大似然方法是理解概率公理一个好事例,这里做些介绍。
统计学中有时已经知道某些数据来自某个广义集合(过去称为母体),而且知道它的分布函数(对应过去的概率分布函数)是什么形状。问题是要从一批随机抽样观测数据中去推测该分布函数中的统计参数(例如平均值)是什么。最大似然方法就有一套处理这类问题的有效方法。
下面问题是个比较具体的例子:已经知道成年人的身高服从正态分布(很高和很矮的学生很少,身高与平均值接近的学生最多),又对100人测量了身高。问描述身高的正态分布函数中的两个参数----平均值a和标准差b各是多少?
这里说的正态分布就是统计学里著名的高斯分布。它也是连续变量型的相对分布函数中的一种,其数学公式是
(10.1)
我们用f(x,a,b)表示这个正态分布函数,x 代表身高,a,b 是目前还不知道的参数值(平均值和标准差)。把公式写成这种格式是突出a,b的值现在还不知道,它也是未知数。而已经知道的是100个人的身高的数据。现在的问题是如何从这100个数据里反求出 a,b 的估计值(称为最大似然估计)。
设100个数据是 x1,x2,...x100,
对于x1其出现的概率为f(x1,a,b)
对于x2其出现的概率为f(x2,a,b)
...
对于x100其出现的概率为f(x100,a,b)
基于以上观测事实,根据独立事件的乘法定理(每次采样都与其他的采样无关),100个数据恰好是x1,x2,...x100 的概率P 显然是这100个概率的连乘积。所以有下面的等式
P=f(x1,a,b)f(x2,a,b)...f(x100,a,b)
这个等式也可以写为
P=∏f(xi,a,b) ( i=1,2,...,100) (10.2)
即这个概率P 是另外100个概率值的连乘积。∏是连乘积符号,在这里就是100数连乘。
表面上看概率P 现在是100个x 值的函数。但是100个x 值已经观测到了。真正不知道的是a,b 的值。现在要利用对概率的分析去推断a,b 的值。
显然,如果100个学生的身高是另外一组数值,它们对应的出现概率P 的值也会是另外一个数值。这100个观测数据为什么是这100个数值而不是别的?这说明这100个数值最容易出现。
如果把这100次测量统一看成一次抽样作业,根据概率公理显然表明:100个数值恰好是这一些数值(是不是别的)的事件所对应的出现概率应当是最高的概率。
现在我们的思路一转:就是要根据“概率最高”这个结论反求出我们现在还不知道a,b 的具体数值是什么。----这就是统计学中最大似然原理(方法)的核心。
公式(10.2)左边的概率值应当是概率的最大值,而它又是a 和b 的函数,在数学上我们自然认为概率p 对a 和b 的偏微商(数学中的微积分知识)必然分别等于零。显然我们应当利用这个关系反求出a,b 的值。
注意到
1.公式(10.2)右边是100数的乘积,它处理起来很麻烦;
2.一个数的对数与原来的数是单调函数关系,所以求100个数的连乘积的最大值与求它们连乘积的对数的最大值是等价的;
3.把公式(10.2)两边取对数后再求最大值在数学上容易计算。
我们对公式(10.2)的两边先取对数,再分别对统计参数a,b 求偏微商,由于概率最大(根据概率公理)时上述偏微商必然分别等于零。利用这两个等式就可以求出未知的参数a,b 。它们分别是
如果样本的个数是100个,那么上面公式中的n=100。这两个公式与我们从样本求平均值和标准差的公式是一致的,它也说明我们一般把样本的平均值和标准差当作理论公式中的平均值和标准差是符合最大似然原理的,或者说面对这样一批资料,其统计参数a,b可能等于各种值,但是它们等于上面公式的计算值的概率是最高的。
至此我们已经理清了用概率最大反求未知数a,b 的基本思路。这个思路可以方便地用到其他的分布函数中的未知数的求解上去。
最大似然方法在统计学中得到了广泛的应用。其具体步骤可以从对应的统计书中找到。这里不代替教科书去介绍它了。大家明白用最大似然方法求得的结果比较有效的原因是它利用了概率最高这个条件。而选取“概率最高”为条件是因为它符合概率公理。
最大似然原理(方法)富有成效的原因是它巧妙地利用了概率公理。
最大似然原理是早就明确了的原理,而概率公理是现在才提出的原理。没有概率公理以前人们认为最大似然原理的思路很巧妙很合理,现在有了概率公理人们就认为最大似然原理是概率公理的一个重要推论和应用。有了概率公理,我们就向随机性事物的基本规律方面又迈进了一步;就多回答了一个为什么。
§10.5小结
20世纪的新兴科学冲击了300年以来以牛顿力学为样板的决定论的地位,而新兴的众多科学之中大多强调随机论的重要性。但是在随机论中那个科学原理具有牛顿力学原有的地位?这是一个目前还不明朗的问题。
笔者认为随机论中具有基础地位的原理不是科学家在极特殊极先进的条件(仪器)下找到的原理,而是大家熟视无睹的,与随机事物有关的,一种现象(规律)。它过去没有名称,我们把它称为概率公理。
“一次随机抽样中尽管多种事件都可能出现,但最容易出现(遇到)的事件(结局)是概率最高的事件”称为概率公理。这个公理也可以反过来表述:“一次随机抽样中概率最高的事件是最容易出现(遇到)的事件”。
简写成公式形式就是:
(最容易出现的事件)=(概率最高的事件)
概率公理是废话,还是原理?
“大苹果都个儿大”,当然是一句废话(A=A也是一句废话,但是它不是错话。而且在逻辑学中它被称为同一律,是逻辑学的基本定律)。“大苹果都是熟的”可就不是一句废话。“大”与“熟”不是一个含义,所以“大苹果都是熟的”包含了一些知识(规律)。
只要大家承认“容易出现”与“概率高”不是一个含义,概率公理就有存身之地了。是的,“概率”这个词有不只一个解释,把“容易出现”与“概率高”的含义区分开也就理所当然了。
本章对新引入的概率公理给出了初步的应用与说明。引入它的目的是为了解释后面要引入的最复杂原理。
你讨厌在大家都明白的问题中兜圈子,讨厌什么公理!也好,只要承认“高概率的事物最容易出现”,在后面用到这个结论时不再追问为什么,也可以把本章忽略过去。大家把这个论断当作不言自明废话也可以,愿意承认它是个公理可能更好一些。
第十章问题:
1. 您对“科学概念”和“科学规律”的地位和作用有何见解?
2. 举例说明一些日常事物中包括了“高概率的事物容易出现”这个道理。
3. 说明最大似然原理的含义。
4. 说明利用最大似然原理求分布函数中的未知参数的思路和数学步骤。
5. 把一个司空见惯的常识提升为公理,您认为如何?
--第十章结束
上一次由zhangxw于2005-9-17修改,总共修改了1次
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社