||
1、都是伯努利惹的祸。
最近有人针对2018年高考全国理科I卷第20题再次发表言论,声称这道题是统计题不是概率题,而且无论是题目还是国家解答都不存在错不错的问题。既然这不是官方最后的“判决”,我就不妨再多说几句。作为对基础教育起着指挥棒作用的高考,命题是一件很严肃的事情,来不得半点的含糊其辞。
我对这道题是概率题还是统计题的问题没有兴趣争论,自从伯努利同志用统计定义概率后,概率与统计就一直纠缠不休,甚至弄出了一地鸡毛。你说掷骰子是统计问题,我说掷骰子是概率问题,谁对谁错?正如你说勾股定理是几何,我说勾股定理是代数,到底谁说的正确?去翻翻历史,看看费马大定理说的是什么事,就知道我说勾股定理属于代数问题有没有错了。而且教材中不乏类似的题,这些题在概率章节还是统计章节,大家翻一翻教材便知。无论是必修3还是选修2-3中,相关内容都放在概率部分,难不成课程标准制定者与教材编写者都搞错了?这个问题可就严重了。我感兴趣的问题是:2018年高考全国理科I卷第20题到底有没有错?
2、再论2018年高考全国理科I卷第20题
为了方便讨论,我把这道题再次抄录一遍:
某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品。检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验。设每件产品为不合格品的概率都为p(0<p<1),且各件产品是否为不合格品相互独立。
(1) 记20件产品中恰有两件不合格品的概率为f(p),求f(p)的最大值点p0.
(2) 现对一箱产品检验了20件,结果恰有两件不合格品,以(1)中确定的p0作为p的值。已知每件产品的检验费为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用。
(i)若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为X,求EX;
(ii)以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
首先需要澄清一个事实,这道题明确指出是对一箱200件产品中的20件作检验,根据检验结果决定是否对这箱产品中余下的产品作检验,这里所指产品显然是这箱产品,而不是所谓的大批量产品。也就是说,样本总量为200,而不是那篇帖子里说的大批量,看看题目的第二问就一目了然了。
对这道题的理解有两个关键点:1、这道题的表述有没有错?2、这道题的解答有没有错?关于第一个问题请看这句表述:“设每件产品为不合格品的概率都为p(0<p<1),且各件产品是否为不合格品相互独立。”我不知道统计学家是不是习惯于这种表述,至少我认识的统计专家与概率专家似乎都不是这么表述的,因为,作为已经生产出来的成品,合格与否是确定的,随机性不是针对某件产品是否合格而设的,而是指抽到哪件产品是随机的。题目的表述到底有没有问题,相信读者自有判断。
最关键的一点是第二个问题:解答到底对不对?标准解答将此题当成伯努利实验来做是否合理?这就要从两个方面来分析了:(1)中学阶段的统计中有没有介绍当样本总量很大时,少量抽样可以近似看成伯努利实验?(2)200件产品相对于20件产品的抽检算不算样本总量很大?换句话说,多大的样本总量相对于抽检的数量称得上大样本总量?
从实验的性质看,无放回式检验属于超几何分布,有放回式检验属于二项分布,概念的界定非常清楚,与这是统计还是概率问题无关。只有当样本总量很大,而检验的样品相对于总量很少时,可以将无放回式检验近似当成有放回式检验。某版中学教材选修2-3中的概率章节2.4二项分布中有一道练习题:
批量较大的一批产品中有30%的一级品,进行重复抽样检验,共取五个样品,求:
(1) 取出的5个样品中恰有2个一级品的概率;
(2) 取出的5个样品中至少有2个一级品的概率。
这道题的题干表述非常清楚,指的是这批产品中的一级品率而不是“每件产品为一级品的概率”,其次,提干中讲的是“批量较大”的一批产品,没有涉及具体的产品总量,因为大批量产品的抽检与总体的关系可以忽略。大学概率统计教材中也有类似的表述:“一批数量很大的产品”,这类问题可以近似当成二项式分布。
再回头看考题的表述:“先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验。”考题的第二问说“(2) 现对一箱产品检验了20件,结果恰有两件不合格品,以(1)中确定的p0作为p的值。已知每件产品的检验费为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用。
(i)若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为X,求EX;
(ii)以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?”
这两段话表述得很明白,先从这箱产品中抽取20件作检验,再决定是否对这箱余下的产品作检验,换言之,样本总量是200。那么相对于抽检20件产品来说,200件的样本总量算不算大批?有没有一个界定的标准?教材中有没有交代过?这就要看我们要求的精度是多少了。超几何分布与二项分布的一个典型差别是:超几何分布通常需要知道样本的总量,而二项分布则不需要。所以一般情况下,如果命题的考点是二项分布,提干中通常只是说大批量产品,而不会给出具体的产品数量,一旦给出了产品的数量,就必然涉及用什么方法以及精度问题。在这类问题中,如果样本总量很大,可以用二项分布近似替代超几何分布,但并不表示这就是二项分布。尤其是当给出了样本总量,而且样本总量相对抽检的数量并不算庞大时,该用超几何分布还是二项分布是一件不言自明的事,与这道题属于统计还是数学有什么关系?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 09:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社