博文

高山同学在概率问题上的正确与错误

已有 8665 次阅读 2017-4-8 12:42 |个人分类:RnR|系统分类:科研笔记

2017-04-10（北京时间）更新：将原结语中最后一句话删除。并请阅读高山老师，你是对的！

--------------

就事论事，咱们一个一个来。不搞人身攻击。其实只要不脱离科学网、不整黑材料、告黑状，即便你在科学网上开骂也没有关系都行。

高老师一共写了三篇文章：

【1】有关科学网一篇概率问题的再讨论

【2】我用公式说明科学网一个概率问题的错误

【3】深入探讨上次概率问题错误的根源

在文【1】中，高说：

根据作者【袁注：即张天蓉】理解，他认为医生计算王宏的得病概率是错误的，应该用贝叶斯公式。先验概率P(A)指的是王宏没有检查结果时得X病的概率（即X病在公众的基本概率0.1%），条件概率P(B/A)是王宏检测为阳性下，得病的概率99%，也就是真阳性率(1)。P(B)是王宏检测为阳性的概率，这个不好求啊，当然作者没有说怎么求，后验概率P(A|B)=[P(B/A)*P(A)]/P(B)。也就是说，作者认为检测后，王宏应该得到后验概率P(A|B)，作为他的患病概率。
我认为作者的计算也是错误的(2)，贝叶斯的观念，简单来说，就是用观察的数据来修正先验概率，以得到后验概率，但是数据必须大，而且无偏，一两次修正，基本概率变化不大。
贝叶斯修正得到的后验概率应该是针对人群的，也就是对P(A)进行修正。对于王宏这个人，不是能用贝叶斯概率修正的(3)，具体的公式推导我就不写了。……但是我就讲一点，如果医学诊断你生病不是90%这么高，仅仅是9%，是否可以上临床？这是一个常识问题。
作者的错误就在于，这个案例不用计算，压根就不用计算。医院诊断的阳性率，基本上就是被诊断者发病概率(4)，这个请各位想明白。

我们讨论以上标红的四句话。第一句关于P（B|A）的解释明显错误，也许是笔误，存疑。第二、三句话，高认为张的计算是错误的。原因在于，如果我没有理解错的话，高认为贝叶斯只能针对总体的概率进行修正，不能针对个体是否患病这个不确定性进行修正。高的这个观点，我可以理解，但不认同。这个我放到明天另外来写。当然，高同学在这个论证过程当中，隐藏了一个他讲了即没有讲得非常直白的一个观点，那就是，他认为王某做了一次检查，只是一个很小的样本数据，因此对先验概率的修正很小。他这里存在一个误解，这个误解其实是他否定贝叶斯方法的根源。这个我有空后面一起讲。

最后一句话，他称诊断的阳性率基本上就是被诊断者的发病概率。他这里用了一个“基本上”的副词，不太明白是他脑袋里头的数值近似（这是有可能的）呢还是没必要的口头禅，暂存疑。

高在【2】中这样写道：

A是王某得病，……
B是检测为阳性，……
P(A/B)就是检测为阳性，王某确实得病[的概率]，也就是99%(1)，……
P(B/A)就是王某确实得病，检测为阳性[的概率](2)，这个叫正样本的灵敏度，Sn（+），我讲了在医学检测中灵敏度比特异度更重要，起码不小于90%，否则大部分漏掉，后果比假阳性更严重
因此，P(A/B)和P(A/B)都不用求，都是已知的(3)，不知道这个，是没法上临床的，过不了卫计委那关。这是一个常识问题。这个结果不管是王某，张某，不管谁去都是 99%，这是技术决定的，也是根据大规模临床获得的，不是根据某人的检测情况可以改变的。
另外，A不应该是人群中的得病概率，这个与王某得病没有关系，王某患病的先验概率不知道(4)。
如果硬要指定A是人群中的得病概率，硬要套公式，那么是这样P(B)=[P(B/A)*P(A)]/P(A/B)(5), 如果检测灵敏度与特异度都是99%，那么P(B)=P(A)。他的含义是，检测为阳性的比率基本和人群中患病比例相同，这是理想值永远不可能达到。
这个问题的根本错误就是基本概念不清楚，硬套公式。按照他自己定义，A是普通人群中王某感染X病的概率。P(A/B)就是有了阳性结果，在普通人群中王某感染的概率就变了(6)。

我们讨论以上标红的六句话。第一句话，讲的是P(A|B)，高同学一句“也就是99%”，把基调定了。这个P(A|B)正是我们要计算的。他却说：不用算，就是99%。恕我愚笨，我就没看出这个逻辑来。

第二句话，他对P(B|A)的解释不太好，这样解释非常容易导致后面的逻辑混乱。他认为，P(B|A)指的是王某确实得病的前提下，检测结果为阳性的概率。这里的A是指患病这个事件，而不是指王某患病。因为P(B|A)指的是检测手段本身的可靠性，它与王某无关。张三、李四、王二，谁来做这个检测都是一样的可靠性，都有相同的错误发生的比率。

第三句的“不用求”的结论当然是与前两句是一脉相承的。

第四句话再谈王某个人患病的先验概率不知道，这个和文【1】中的观点一致，我待后再讨论。

第五句是高山同学的神来之笔，不知道他是如何从他的糊涂矩阵中得到这样的神公式。最后一句，是我们通常认同的解释，也是张在博文中的解释，但高山同学似乎不认同。

高在文【3】中这样写道:

我给大家指出他关键的一个错误，我们看公式
P(A|B) = P(B|A)P(A) / [P(B|A)P(A) + P(B|not A)P(not A)]
这里已知 P(B|A) = 0.99，P(A)=0.0001，P(not A) =0.9999
我们把公式简单写作，这里的错误就是作者根据P(B|not A) = 1 - P(B|A) = 1-0.99 = 0.01(1)
因此得到公式(0.99*pa)/(0.99*pa+0.01*(1-pa)); pa=0.0001
大家可以用R语言连续执行得到他们的结果0.009803922。
大家看到了错误的根源在于认为P(B|not A)+ (P(B|A)=1(2)
P(B|not A)和(P(B|A)是风马牛不相及的概念，绝对不等于1，这两个指标不是计算来的，都是大规模统计得到的(3)。大家特别注意，人家老外说了这个案例必须针对罕见病，只有罕见病P(A)=0.0001，那么我告诉你对于罕见病P(B|not A)不可能是0.01(4)，你执行
(0.99*pa)/(0.99*pa+0.00001*(1-pa)); pa=0.001，结果是0.9082652
明白了吧，罕见病的标志非常明显，比如现在的产前检测，染色体问题，搞错都是百万分之一的概率啊。……
好，那么不是罕见病，确实这个指标要高，我们可以用他的P(B|not A)=0.01
但是他的pa就不是0.001了
你比如肿瘤，pa至少0.1，请计算下面公式
(0.99*pa)/(0.99*pa+0.01*(1-pa)); pa=0.1，结果是0.9166667

我们讨论以上标红的四句话。头两句是同一个意思，高山同学指控原作者犯了一个概率计算错误。但是，如果大家仔细读高引用的哈佛医学院网页上的信息，原作者非常明确地对那两个概率做了单独的假设，只是凑巧让这两个量的和为1了。高山同学如获至宝。我发现啦，我发现啦……！比范进中举还高兴。

第三句话是高山同学讲得非常正确的一句话，但我们大家都清楚，但他非要把自己当专家给我们科普，我们就耐心地听他讲完，我们假装点个赞，好不好？

第四句话，他说对于罕见病P（B|not A)<<0.01，我不理解，当然我也不敢说他一定错。我是这样想，第一，艾滋病现在算不算罕见病我不知道，CD4+细胞记数检测的可靠性我也不知道，但我知道可靠性不会高过99%。第二，CT扫描是一个常用检测手段。假设CT扫描用来诊断某种怪异的骨癌，其可靠性分别为：

（1）在骨癌真正存在的情况下，结果阳性的概率是90%；

（2）在没有这种骨癌存在的情况下，结果阳性的概率是1%。

高山同学的意思是说，我们就根本不能用CT检测技术？但我这个乡里人再也花不起大价钱，我遇到的县里的医生，他最好的手段就是CT。你的意思是不去查？查了也白查？对吧？如果你这样讲，那你还是有道理的。

好，看到这里，你终于被我绕进去了。因为，我们还得翻历史旧账：你在文【1】中声称的，张老师的“计算是错误的”，“医院诊断的阳性率基本上就是王某的发病概率”这两个观点你坚持吗？你在文【3】中的计算又绕回了张老师的公式，不止一次地应用它，还苦口婆心地教育我们张老师引用的输入数据不对。您最后能不能来一个总结陈词。如果总结时舌头打结，您是不是向张老师说一声sorry，如果中文讲起来有点困难的话？

最后请问，您说“王某的发病概率”到底是什么意思？他作为一个个体，病就病了，没有病就病，讲“发病的概率”，找抽吗？

总结

我们简要回顾一下高山同学三篇博文的观点。文【1】着重反对两个事情：第一，王某患病与否，是个案，不能用贝叶斯方法。第二，检查出来是阳性，王某的患病概率基本上就是检测手段的所谓的真阳性率，数学表达的话，高认为P(A|B) = P(B|A). 文【2】高继续“论证”文【1】第二个观点，用他博士论文中的糊涂矩阵彻底把他自己搞糊涂，并完整地展现给了大家。

文【3】的观点发生了变化。高做了一番功课之后，误以为发现了别人在应用贝叶斯公式时出了根本错误，却没有意识到自己没有看清题目。在我指出来后，高山同学现在惟一能说大家错误的，就是“你懂罕见病吗”。但关键是，应用贝叶斯之后，罕见病从万分之一提高到百分之一；对于常见病，概率从原来的10%提高到90%，这难道有错吗？而你把90%误为99%，才是根本的概念错误！我们讨论的是贝叶斯方法，而不是1%或90%能否做为最后确诊的依据。

高山同学，你能不能给大家简单地解释一下，你现在还坚持文【1】的两个观点吗？

回到标题总结一下。高山同学正确的是，向大家解释检测手段可靠性的两个方面。这个问题，统计上就是第一类错误和第二类错误，即alpha 和 beta。一般人不太注意理会。这个算他的科普贡献。另外，高山同学提出了一个有些智力挑战的问题，即文【1】第一条，一个个体患病，能不能用贝叶斯的方法来分析？我说了，我可以理解他的问题，但我不认同他的观点。我抽空再写，这个其实也是我欠徐晓和老邪的账。有兴趣的朋友也可以先写，我没有版权的。

高山同学错误的地方，前面讲了一大堆。当然这些都不算什么。我说过，他在这个问题上用了直觉，一快就“野”，所以我说他做了一回野人。更大的问题，其实是他一直在博客里表现出来的，三两句没说完就开骂。

相关专题：概率问题与贝叶斯定理
转载本文请联系原作者获取授权，同时请注明本文来自袁贤讯科学网博客。
链接地址：https://blog.sciencenet.cn/blog-103568-1047570.html

上一篇：概率的红旗依然飘扬——兼议近期贝叶斯的讨论
下一篇：答徐晓兼复老邪（2）——腐儒与力博儒之争

收藏 IP: 99.247.54.*| 热度|

生存生活生命分享 http://blog.sciencenet.cn/u/montec007 友诤友直友谅

博文

高山同学在概率问题上的正确与错误

当前推荐数：11 推荐人：杨正瓴 文克玲 蔡宁 苏德辰 陆绮 曾泳春 李欣海 董全 张天蓉 nature023 yzqts

该博文允许注册用户评论请点击登录评论 (20 个评论)

袁贤讯

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

生存生活生命分享 http://blog.sciencenet.cn/u/montec007 友诤友直友谅

博文

高山同学在概率问题上的正确与错误

当前推荐数：11 推荐人： 杨正瓴 文克玲 蔡宁 苏德辰 陆绮 曾泳春 李欣海 董全 张天蓉 nature023 yzqts

该博文允许注册用户评论 请点击登录 评论 (20 个评论)

袁贤讯

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：11 推荐人：杨正瓴文克玲蔡宁苏德辰陆绮曾泳春李欣海董全张天蓉 nature023 yzqts

该博文允许注册用户评论请点击登录评论 (20 个评论)