博文

简说一道概率题的问题精选

已有 18638 次阅读 2017-4-9 11:46 |系统分类:观点评述

简说一道概率题的问题

【本来准备写一篇长篇完整的东西来解释诸君的争论，但是由于最近非常忙，而文克玲老师又多次相邀，所以我只好急就章。】

（1）原题及原题给出的答案（见张天蓉http://blog.sciencenet.cn/blog-677221-1042909.html）

王宏去医院作验血实验，检查他患上了X疾病的可能性，其结果居然为阳性，把他吓了一大跳，赶忙到网上查询。网上的资料说，实验总是有误差的，这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说，在得病的人中做实验，有1%的人是假阳性，99％的人是真阳性。而在未得病的人中做实验，有1%的人是假阴性，99％的人是真阴性。于是，王宏根据这种解释，估计他自己得了X疾病的可能性（即概率）为99%。王宏想，既然只有百分之一的假阳性率，那么，百分之九十九都是真阳性，那我已被感染X病的概率便应该是99%。

可是，医生却告诉他，他被感染的概率只有0.09左右。这是怎么回事呢？王宏的思路误区在哪里？

医生说：“百分之九十九？哪有那么大的感染几率啊。99％是测试的准确性，不是你得病的概率。你忘了一件事：这种X疾病的正常比例是不大的，1000个人中只有一个人有X病。”

医生的计算方法是这样的：因为测试的误报率是1%，1000个人将有10个被报为“假阳性”，而根据X病在人口中的比例（1/1000=0.1%），真阳性只有1个。所以，大约11个测试为阳性的人中只有一个是真阳性（有病）的，因此，王宏被感染的几率是大约1/11，即0.09(9%)。

【本题陈述错误的部分，我已经用下划线标出，而用错的概念我用蓝色标出。而医生的陈述，显然不合情理，我用红底标出。】

（2）用错的概念

在假设检验理论中，概言之，我们是针对某个假设而制定检测实验的，如果这个实验结果支持假设，我们就说这个这个实验结果是阳性的；不支持，就说检测结果是阴性的。我们用一种仪器去检测某人是否有某种病，那么我们用的假设就是“某人有某种病”，如果仪器检出来的各项指标综合起来支持某人患有某种病的假设，我们就说检测结果呈阳性，否则就说检测结果呈阴性。

因此上面题目首先就把“阳性”和“阴性”的概念搞错了。对于有病的人，如果检测结果呈阳性，那么这个检测结果就是真阳性；如果检测结果呈阴性，那么这个检测结果就是假阴性。对于没病的人，如果检测结果呈阳性，那么这个结果就是假阳性；如果检测结果呈阴性，那么这个结果就是真阴性。

为了使这些概念清楚，我用一个表来展示（即高山说的“模糊矩阵”（confusion matrix），实际上应该翻译为混淆矩阵。模糊矩阵（fuzzy matrix）是模糊数学用的，不是这个矩阵）：

	人有病	人无病
检测结果呈阳性	真阳性	假阳性
检测结果呈阴性	假阴性	真阴性

所以对于有病的人，我们谈的是真阳性和假阴性，而不是真阳性和假阳性；对于无病的人，我们谈的是假阳性和真阴性，而不是假阴性和真阴性。所以，这一点，题目完全说错了。

而综合这个题目的上下文，其正确的对应数据如下表：

	人有病	人无病
检测结果呈阳性	真阳性99%	假阳性1%
检测结果呈阴性	假阴性1%	真阴性99%

（3）不合情理的医生讲话

如果一个检测仪器是完美和理想的，那么有病的人就应该检为阳性，所有无病的人应该检为阴性。但是，仪器不完美，有误判，这种误判就是假阴性和假阳性两类。我们通常所谓准确率，是指仪器在大规模的检测活动中检测结果都正确的概率，即仪器针对大规模人群去检测，而后得到真阳性的概率加上得到真阴性的概率。那么在这道题中，仪器的准确率是多少呢？

考虑到此疾病的患病概率是千分之1，那么此仪器通常意义上的准确率，应该是（0.999*0.99+0.001*0.99）=0.99。

而对于一个千分之1患病概率的病，我们的仪器的准确性居然只有0.99，如果医生如此告诉病人，最后再告诉病人，其患病的概率是0.09，这确实是找抽。

那么，我们会使用这一个仪器么？或者说，卫生部门会批准这个仪器的使用么？我们说，那不一定，因为这涉及代价函数。也就是说，一个人比别的正常人明明更可能有病，而病人一旦患病不治疗或者不进一步检测的话，其付出的代价非常大，那么即使被试者的患病概率不高，我们也会对病人进行复检或者进行预防性的治疗。

所以，一个正常的医生，肯定劝病人复检，不可能说那番话。

（4）跟贝叶斯有关吗？

这个题目，是个典型的条件概率题，计算条件概率，哪个学派的公式都一样，根本不涉及贝叶斯法则，所以不能因为用了一个条件概率公式，就说用了贝叶斯。所以跟贝叶斯有关的争论，在这道题目中，没有太大意义。

至于用后验概率更新先验概率的问题，比较复杂，学派不同，要求也不同。此处不谈。

（5）在假设检验使用的实际场合中，这道题目有问题吗？

对于罕见病，我们很难统计。比如本题中说这种病有0.1%的患病率。那么这个0.1%是如何统计出来的呢？如果要达到一定的统计准确性，那么至少要统计10000个人。而且统计样本还要有足够的多样性。而且，千分之1的患病率算不算罕见病，这也是存疑的。我不懂医，不敢乱讲，只好相信高山，并且抄一段百度百科如下（http://baike.baidu.com/item/%E7%BD%95%E8%A7%81%E7%97%85?sefr=cr）：

顾名思义，罕见病是指那些发病率极低的疾病。罕见疾病又称“孤儿病”，在中国没有明确的定义。根据世界卫生组织（WHO）的定义，罕见病为患病人数占总人口的0.65‰～1‰的疾病。世界各国根据自己国家的具体情况，对罕见病的认定标准存在一定的差异。例如，美国将罕见病定义为每年患病人数少于20万人（或发病人口比例小于1/1500）的疾病；日本规定，罕见病为患病人数少于5万（或发病人口比例为1/2500）的疾病，中国台湾则以万分之一以下的发病率作为罕见病的标准。

相关专题：概率问题与贝叶斯定理
转载本文请联系原作者获取授权，同时请注明本文来自徐晓科学网博客。
链接地址：https://blog.sciencenet.cn/blog-731678-1047725.html

上一篇：心似双丝网，中有千千结
下一篇：先验概率：经验、信念与假定

收藏 IP: 223.73.56.*| 热度|

当前推荐数：22 推荐人：武夷山 尤明庆 陈楷翰 周健 戎可 宁利中 李学宽 刘卓荣 李天成 周浙昆 陆绮 徐传胜 赵美娣 杨正瓴 黄河宁 gaoshannankai wangshoujiang3 icgwang zjzhaokeqin laijianshan aliala loyalSciencefan

安静分享 http://blog.sciencenet.cn/u/physicsxuxiao 致远

博文

简说一道概率题的问题精选

当前推荐数：22 推荐人：武夷山 尤明庆 陈楷翰 周健 戎可 宁利中 李学宽 刘卓荣 李天成 周浙昆 陆绮 徐传胜 赵美娣 杨正瓴 黄河宁 gaoshannankai wangshoujiang3 icgwang zjzhaokeqin laijianshan aliala loyalSciencefan

该博文允许注册用户评论请点击登录评论 (27 个评论)

徐晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

安静分享 http://blog.sciencenet.cn/u/physicsxuxiao 致远

博文

简说一道概率题的问题 精选

当前推荐数：22 推荐人： 武夷山 尤明庆 陈楷翰 周健 戎可 宁利中 李学宽 刘卓荣 李天成 周浙昆 陆绮 徐传胜 赵美娣 杨正瓴 黄河宁 gaoshannankai wangshoujiang3 icgwang zjzhaokeqin laijianshan aliala loyalSciencefan

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

徐晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

简说一道概率题的问题精选

当前推荐数：22 推荐人：武夷山尤明庆陈楷翰周健戎可宁利中李学宽刘卓荣李天成周浙昆陆绮徐传胜赵美娣杨正瓴黄河宁 gaoshannankai wangshoujiang3 icgwang zjzhaokeqin laijianshan aliala loyalSciencefan

该博文允许注册用户评论请点击登录评论 (27 个评论)