||
按:《概率破玄机,统计解迷离》是严加安老师的一篇很好的科普文章,许多地方都很有启发性和实践指导意义。好的地方不用再去赞美了,有兴趣的读者应该好好去仔细阅读原文,该文的确有很多值得好好学习和体会的地方。我在本文中,将对该如何理解该文中的一些重要问题,以及对该文中可能存在的一些瑕疵做了一些思考(昨天中午我第一次看到该文,想到了一些问题,于是当时就动笔写了一篇评论文章,昨晚我又继续思考了其中的一些重要环节,因此今天重新系统地写出本文以做为对第一篇评论文章的完善)。另外,在概率分析中,对研究对象进行机理性分析的重要性和该如何考虑由于机理所带来的随机误差方面,我也谈谈自己的看法。
首先,在概率分析中,纯粹由数据到数据的概率统计性数值分析虽然是很有价值的,但也可能会出现疏漏甚至严重的偏差。要避免这种可能,必须同时既要重视概率统计技术方法本身的正确运用和正确运算,也要重视机理分析对于概率统计分析的试验方案设计、数据采样方案设计、以及最终的统计数据结果的解释的极端重要性。
《概率破玄机,统计解迷离》一文中所给出的第10案例(10.“抽样调查”的陷阱)就是一个非常好的例子。在这个例子中,充分说明了这样一个道理:问卷调查的设计和数据分析,关键技术内容不仅仅在于概率统计的数学方法本身,也不仅仅在于调查得到的样本数量多少,而首先在于要充分确保在调查方案设计时,对调查对象的代表性的充分考虑,以确保调查结果是具有足够高的代表性的。这一点极为重要,过于偏颇的调查方案设计,尤其是出现巨量的调查空白领域(即有许多具有显著不同特性的选民,而且这些选民的数量非常巨大,却并没有被采样调查)的话,即使调查的样本数量再多,都是很容易失效的。因此,案例10中《文学文摘》的调查结果严重失准,其根源在于其所设计的调查方案并没有充分考虑不同类别的选民的特征不同和取向不同,偏颇地仅仅调查了某几类或某一类选民就做了最终的分析判断。这个例子说明了这样一个道理:具有统计性,或具有概率性偏差的试验方案设计(包括物理化学试验、人文社会学问卷调查等等),必须首先进行研究对象、调查分析对象的机理分析,从机理上充分梳理出其可能的类别有哪些(相当于要充分考虑:该系统的自变量、应变量、自由度等方面,有哪些是在此次研究分析中必须考虑的特性,这些特性可以归纳梳理出哪些不同的类别来),然而针对这些不同类别分别进行问卷调查(或试验检验),这样才能确保最终的分析结果可以充分涵盖整个研究对象的总体特性、总体趋势或总体规律性特征。
接下来再说说《概率破玄机,统计解迷离》一文中的其他同样很值得深思的例子。比如第5个例子(5. 在猜奖游戏中改猜是否增大中奖概率)中,在猜奖游戏中改猜的概率,我认为应该是相同的,证明如下:
首先,必须牢牢确立这样两个基础规律:1)三个门在没有被打开之前,每个门的中奖概率是完全随机分布的,因此三个门的初始中奖概率是精确相等的;2)任意两个门之间,在没有被打开之前,其中奖概率也是完全精确相等的。
有了上述两个基础规律的共识,接下来对猜奖者的策略进行分类梳理,就可以很严密且清晰地证明最终结果。猜奖者的行为策略无外乎以下三种。
1、猜奖者每次都不改猜(同时必须考虑到:不论其第一次猜中与否,主持人总能在他没有选择的另外两扇门里打开一扇后面是羊的门),在这种情形下,显然猜奖者的中奖概率会一直是1/3;
2、猜奖者每次都改猜(同样地,不论其第一次猜中与否,主持人总能在他没有选择的另外两扇门里打开一扇后面是羊的门)。逻辑上的关键点来了:由于没有被主持人打开的两扇门的中奖概率总是精确地相等的,因此不论猜奖者是否改选择,都不会提高其猜中的概率,因此猜奖者虽然每次都改猜,但他的中奖概率仍然是1/3而不会是1/2。
3、如果猜奖者是用某种概率分布进行随机地改猜的(即有时改猜有时不改),其结果的猜中概率介于1、2情形之间,而由于1、2的猜中概率是相等的(事实上最为关键的问题在于:任何两个没有打开的门之间的中奖概率总是精确地相等),因此概率仍然是1/3。
综合1、2、3,因此不论改不改猜,猜奖者的中奖概率总是1 /3。
以下是对例5的进一步深入分析。例5所给的概率问题的关键在于:主持人是在猜奖人做出了第一次选择后开的门,而不是在此之前开的门(若是在猜奖之前开的门,即上来就剔除了一个非奖选项,这种情况下剩下的两扇门的中奖概率才会分别是1/2),因此他的这种行为(即:在猜奖者做出了第一次猜奖行为后,故意从另外的两扇门中打开一扇没有奖的门)并不会影响剩下的两扇没有开的门的中奖概率,除非此时引入一个新的猜奖者进行猜奖。
也就是说,‘在猜奖者做出第一次选择后,从未被其选择的两个门中剔除一个非奖选项接着猜’,与‘直接剔除一个非奖选项,然后再让猜奖者去猜’这两种方案的中奖概率是不同的。这种中奖率的不同根源在于,概率与事件的操作过程、参与过程中的时序步骤有关,不同的操作过程和参与方法,其机理是有所不同的,因此会导致在概率的数值上也往往是不一样的(当然,在精心设计后也许能有概率数值相同的方法,这就需要另外就具体问题具体分析了)。
由此,回过头来继续围绕《概率破玄机,统计解迷离》一文中所给出的案例,谈谈我对概率统计中的机理分析的看法。在该文的例8和例9中,我认为结论并不能完全确定,至少有许多细致的机理性问题需要探究。比如例8中,一方面样本数并不够充分,数量有些少,在数量过少的情况下,随机误差会导致对结果的解读的可靠性存在问题。同时,甲乙的分组方法对于结果的影响可能很大,可能说明甲乙的机理上存在值得深入研究的问题(究竟是什么原因导致甲乙两组出现了很显著的效果差异,这个现象本身很值得深入研究,尤其是如果甲乙分组并非完全随机的话。而如果甲乙两组是完全随机分组的,出现这么大的显著差异有可能是因为试验中有较大过失或其他系统性的操纵失误、操作不同或环境不同等原因所导致的,这都是需要去深究和还原分析实验方案的地方)。另外值得重视的是,在例8中,乙组B的治愈率虽然相比乙组A稍低,但并非多大的劣势,而总人数上乙组B比乙组A高了很多,这才是最重要的,这本就理应使得对B方案的效能评价大大提升。
与例8有些类似,但例9的例子更加不好下确定的结论,因为例9的样本数实在太少(尤其是公司中的老年人数太少了),如此少的样本,随机误差的影响太大,这种结果很有可能是由于随机误差导致的,而很可能并不是其工作氛围、生活作息方式等之类的系统性原因所导致的,即例9中的随机误差会导致对结果的解读的可靠性出现问题,导致过于简单化地进行最终的解释和解读有很大可能是不可靠的。
综合上述所有的案例分析,还可提炼总结出这样一个非常有价值的理念,或者说蕴涵了这样一个很有意思的规律:越是复杂的研究问题和研究对象,其随机误差都会越大(因为越复杂,该系统的自变量、应变量和自由度就会越大,同时各种误操作之类的现象也更加容易发生),而要消除这种可能过大的随机误差,必须要有足够大的样本数,尤其是在方案设计和样本选择时的类别梳理和样本代表性要足够充分和足够得到保证,这样才能确保乃至提高实验结果、分析结果的可靠性。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 16:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社