安静分享 http://blog.sciencenet.cn/u/physicsxuxiao 致远

博文

简说一道概率题的问题 精选

已有 7637 次阅读 2017-4-9 11:46 |系统分类:观点评述

简说一道概率题的问题

【本来准备写一篇长篇完整的东西来解释诸君的争论,但是由于最近非常忙,而文克玲老师又多次相邀,所以我只好急就章。】

1)原题及原题给出的答案(见张天蓉http://blog.sciencenet.cn/blog-677221-1042909.html

   王宏去医院作验血实验,检查他患上了X疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有1%的人是假阳性99%的人是真阳性。而在未得病的人中做实验,有1%的人是假阴性99%的人是真阴性于是,王宏根据这种解释,估计他自己得了X疾病的可能性(即概率)为99%。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染X病的概率便应该是99%

可是,医生却告诉他,他被感染的概率只有0.09左右。这是怎么回事呢?王宏的思路误区在哪里?

医生说:百分之九十九?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。

医生的计算方法是这样的:因为测试的误报率是1%1000个人将有10个被报为“假阳性”,而根据X病在人口中的比例(1/1000=0.1%),真阳性只有1个。所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约1/11,即0.09(9%)

【本题陈述错误的部分,我已经用下划线标出,而用错的概念我用蓝色标出。而医生的陈述,显然不合情理,我用红底标出。】

2用错的概念

   

在假设检验理论中,概言之,我们是针对某个假设而制定检测实验的,如果这个实验结果支持假设,我们就说这个这个实验结果是阳性的;不支持,就说检测结果是阴性的。我们用一种仪器去检测某人是否有某种病,那么我们用的假设就是“某人有某种病”,如果仪器检出来的各项指标综合起来支持某人患有某种病的假设,我们就说检测结果呈阳性,否则就说检测结果呈阴性。

因此上面题目首先就把“阳性”和“阴性”的概念搞错了。对于有病的人,如果检测结果呈阳性,那么这个检测结果就是真阳性;如果检测结果呈阴性,那么这个检测结果就是假阴性。对于没病的人,如果检测结果呈阳性,那么这个结果就是假阳性;如果检测结果呈阴性,那么这个结果就是真阴性。

为了使这些概念清楚,我用一个表来展示(即高山说的“模糊矩阵”(confusion matrix),实际上应该翻译为混淆矩阵。模糊矩阵(fuzzy matrix)是模糊数学用的,不是这个矩阵):

人有病

人无病

检测结果呈阳性

真阳性

假阳性

检测结果呈阴性

假阴性

真阴性

所以对于有病的人,我们谈的是真阳性和假阴性,而不是真阳性和假阳性;对于无病的人,我们谈的是假阳性和真阴性,而不是假阴性和真阴性。所以,这一点,题目完全说错了。

而综合这个题目的上下文,其正确的对应数据如下表:

人有病

人无病

检测结果呈阳性

真阳性99%

假阳性1%

检测结果呈阴性

假阴性1%

真阴性99%

3)不合情理的医生讲话

如果一个检测仪器是完美和理想的,那么有病的人就应该检为阳性,所有无病的人应该检为阴性。但是,仪器不完美,有误判,这种误判就是假阴性和假阳性两类。我们通常所谓准确率,是指仪器在大规模的检测活动中检测结果都正确的概率,即仪器针对大规模人群去检测,而后得到真阳性的概率加上得到真阴性的概率。那么在这道题中,仪器的准确率是多少呢?

考虑到此疾病的患病概率是千分之1,那么此仪器通常意义上的准确率,应该是(0.999*0.99+0.001*0.99)=0.99。

而对于一个千分之1患病概率的病,我们的仪器的准确性居然只有0.99,如果医生如此告诉病人,最后再告诉病人,其患病的概率是0.09,这确实是找抽。

那么,我们会使用这一个仪器么?或者说,卫生部门会批准这个仪器的使用么?我们说,那不一定,因为这涉及代价函数。也就是说,一个人比别的正常人明明更可能有病,而病人一旦患病不治疗或者不进一步检测的话,其付出的代价非常大,那么即使被试者的患病概率不高,我们也会对病人进行复检或者进行预防性的治疗。

所以,一个正常的医生,肯定劝病人复检,不可能说那番话。

4)跟贝叶斯有关吗?

   这个题目,是个典型的条件概率题,计算条件概率,哪个学派的公式都一样,根本不涉及贝叶斯法则,所以不能因为用了一个条件概率公式,就说用了贝叶斯。所以跟贝叶斯有关的争论,在这道题目中,没有太大意义。

   至于用后验概率更新先验概率的问题,比较复杂,学派不同,要求也不同。此处不谈。

5)在假设检验使用的实际场合中,这道题目有问题吗?

    对于罕见病,我们很难统计。比如本题中说这种病有0.1%的患病率。那么这个0.1%是如何统计出来的呢?如果要达到一定的统计准确性,那么至少要统计10000个人。而且统计样本还要有足够的多样性。而且,千分之1的患病率算不算罕见病,这也是存疑的。我不懂医,不敢乱讲,只好相信高山,并且抄一段百度百科如下(http://baike.baidu.com/item/%E7%BD%95%E8%A7%81%E7%97%85?sefr=cr):

顾名思义,罕见病是指那些发病率极低的疾病。罕见疾病又称孤儿病,在中国没有明确的定义。根据世界卫生组织(WHO)的定义,罕见病为患病人数占总人口的0.65‰1‰的疾病。世界各国根据自己国家的具体情况,对罕见病的认定标准存在一定的差异。例如,美国将罕见病定义为每年患病人数少于20万人(或发病人口比例小于1/1500)的疾病;日本规定,罕见病为患病人数少于5万(或发病人口比例为1/2500)的疾病,中国台湾则以万分之一以下的发病率作为罕见病的标准。

 




概率问题与贝叶斯定理
http://blog.sciencenet.cn/blog-731678-1047725.html

上一篇:心似双丝网,中有千千结
下一篇:先验概率:经验、信念与假定

21 武夷山 尤明庆 陈楷翰 周健 戎可 赵克勤 宁利中 李学宽 刘卓荣 李天成 周浙昆 陆绮 徐传胜 赵美娣 杨正瓴 gaoshannankai wangshoujiang3 icgwang laijianshan aliala loyalSciencefan

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-5-21 03:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部