|
简说一道概率题的问题
【本来准备写一篇长篇完整的东西来解释诸君的争论,但是由于最近非常忙,而文克玲老师又多次相邀,所以我只好急就章。】
(1)原题及原题给出的答案(见张天蓉http://blog.sciencenet.cn/blog-677221-1042909.html)
王宏去医院作验血实验,检查他患上了X疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有1%的人是假阳性,99%的人是真阳性。而在未得病的人中做实验,有1%的人是假阴性,99%的人是真阴性。于是,王宏根据这种解释,估计他自己得了X疾病的可能性(即概率)为99%。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染X病的概率便应该是99%。
可是,医生却告诉他,他被感染的概率只有0.09左右。这是怎么回事呢?王宏的思路误区在哪里?
医生说:“百分之九十九?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。”
医生的计算方法是这样的:因为测试的误报率是1%,1000个人将有10个被报为“假阳性”,而根据X病在人口中的比例(1/1000=0.1%),真阳性只有1个。所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约1/11,即0.09(9%)。
【本题陈述错误的部分,我已经用下划线标出,而用错的概念我用蓝色标出。而医生的陈述,显然不合情理,我用红底标出。】
(2)用错的概念
在假设检验理论中,概言之,我们是针对某个假设而制定检测实验的,如果这个实验结果支持假设,我们就说这个这个实验结果是阳性的;不支持,就说检测结果是阴性的。我们用一种仪器去检测某人是否有某种病,那么我们用的假设就是“某人有某种病”,如果仪器检出来的各项指标综合起来支持某人患有某种病的假设,我们就说检测结果呈阳性,否则就说检测结果呈阴性。
因此上面题目首先就把“阳性”和“阴性”的概念搞错了。对于有病的人,如果检测结果呈阳性,那么这个检测结果就是真阳性;如果检测结果呈阴性,那么这个检测结果就是假阴性。对于没病的人,如果检测结果呈阳性,那么这个结果就是假阳性;如果检测结果呈阴性,那么这个结果就是真阴性。
为了使这些概念清楚,我用一个表来展示(即高山说的“模糊矩阵”(confusion matrix),实际上应该翻译为混淆矩阵。模糊矩阵(fuzzy matrix)是模糊数学用的,不是这个矩阵):
| 人有病 | 人无病 |
检测结果呈阳性 | 真阳性 | 假阳性 |
检测结果呈阴性 | 假阴性 | 真阴性 |
所以对于有病的人,我们谈的是真阳性和假阴性,而不是真阳性和假阳性;对于无病的人,我们谈的是假阳性和真阴性,而不是假阴性和真阴性。所以,这一点,题目完全说错了。
而综合这个题目的上下文,其正确的对应数据如下表:
| 人有病 | 人无病 |
检测结果呈阳性 | 真阳性99% | 假阳性1% |
检测结果呈阴性 | 假阴性1% | 真阴性99% |
(3)不合情理的医生讲话
如果一个检测仪器是完美和理想的,那么有病的人就应该检为阳性,所有无病的人应该检为阴性。但是,仪器不完美,有误判,这种误判就是假阴性和假阳性两类。我们通常所谓准确率,是指仪器在大规模的检测活动中检测结果都正确的概率,即仪器针对大规模人群去检测,而后得到真阳性的概率加上得到真阴性的概率。那么在这道题中,仪器的准确率是多少呢?
考虑到此疾病的患病概率是千分之1,那么此仪器通常意义上的准确率,应该是(0.999*0.99+0.001*0.99)=0.99。
而对于一个千分之1患病概率的病,我们的仪器的准确性居然只有0.99,如果医生如此告诉病人,最后再告诉病人,其患病的概率是0.09,这确实是找抽。
那么,我们会使用这一个仪器么?或者说,卫生部门会批准这个仪器的使用么?我们说,那不一定,因为这涉及代价函数。也就是说,一个人比别的正常人明明更可能有病,而病人一旦患病不治疗或者不进一步检测的话,其付出的代价非常大,那么即使被试者的患病概率不高,我们也会对病人进行复检或者进行预防性的治疗。
所以,一个正常的医生,肯定劝病人复检,不可能说那番话。
(4)跟贝叶斯有关吗?
这个题目,是个典型的条件概率题,计算条件概率,哪个学派的公式都一样,根本不涉及贝叶斯法则,所以不能因为用了一个条件概率公式,就说用了贝叶斯。所以跟贝叶斯有关的争论,在这道题目中,没有太大意义。
至于用后验概率更新先验概率的问题,比较复杂,学派不同,要求也不同。此处不谈。
(5)在假设检验使用的实际场合中,这道题目有问题吗?
对于罕见病,我们很难统计。比如本题中说这种病有0.1%的患病率。那么这个0.1%是如何统计出来的呢?如果要达到一定的统计准确性,那么至少要统计10000个人。而且统计样本还要有足够的多样性。而且,千分之1的患病率算不算罕见病,这也是存疑的。我不懂医,不敢乱讲,只好相信高山,并且抄一段百度百科如下(http://baike.baidu.com/item/%E7%BD%95%E8%A7%81%E7%97%85?sefr=cr):
顾名思义,罕见病是指那些发病率极低的疾病。罕见疾病又称“孤儿病”,在中国没有明确的定义。根据世界卫生组织(WHO)的定义,罕见病为患病人数占总人口的0.65‰~1‰的疾病。世界各国根据自己国家的具体情况,对罕见病的认定标准存在一定的差异。例如,美国将罕见病定义为每年患病人数少于20万人(或发病人口比例小于1/1500)的疾病;日本规定,罕见病为患病人数少于5万(或发病人口比例为1/2500)的疾病,中国台湾则以万分之一以下的发病率作为罕见病的标准。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-7 05:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社