||
徐晓认为高山没说p(A|B)=p(B|A)。高山也在我的博文讨论区明确否定了。那就奇怪了。难道我真的冤枉他了?
在继续讨论之前,请大家再一次温习Risk Communication的两个基本定理:
Theorem 1: 50% of the problems in the world result from people using the same words with different meanings.
Theorem 2: The other 50% comes from people using different words with the same meaning.
高山有没有说p(A|B)=p(B|A),这个事情我们得细究。首先这个等号,有两重意思。一是,高山从形式上,他会不会认为这两个量等同?我想他这点基本概念还是有的。二是,从实质上,他在脑袋里是跳跃了,而且也跳错了,造成了他没有其他的符号体系来完成他的解释,最终在实质上造成了这样的一个现象。
在高的第二篇博文中,高是这样写的:“P(A/B)就是检测为阳性,王某确实得病[的概率],也就是99%,……。 P(B/A)就是王某确实得病,检测为阳性[的概率],……。因此,P(A/B)和P(A/B)都不用求,都是已知的,不知道这个,是没法上临床的,过不了卫计委那关。这是一个常识问题。这个结果不管是王某,张某,不管谁去都是 99%,这是技术决定的,也是根据大规模临床获得的,不是根据某人的检测情况可以改变的。 ”
他确实没有说P(B|A) = P(A|B),尽管在他的文章中两个量都应该是99%(除非他写的时候脑袋中不是,但是根据上下文,读者读出来就是二者数值相等). 但他说这两个量都不用计算,都是已知的。这句话怎么理解?
首先我们重复一遍检测系统可靠性的标定:针对大量的确诊病患,统计分析假阴性的比率;同时,针对大量的确诊无此病患者,统计分析假阳性的比率。这个与标定一把新尺子的测量误差非常类似,只是在检测系统的标定存在两类错误,因而有两个指标,而尺子的标定只有正负误差限。高山应该是认同这样的一个定义。
可是,他的脑海里,对检测系统投放市场,有另一个对检测质量的定义,他把它当成P(A|B). 而这个P(A|B),张老师、我还有科学网一干读众们通常认为是后验概率。而高山同学认为,这是检测系统的一个质量指标。在他的这个话语体系里头,他接着有以下推论:
(1) 如果这个指标低于一定值,是根本无法得到市场推广应用的。张老师的文章里的例子,这个指标低于百分之一,因此他认为是一个很操蛋的系统,因此,也是一个很操蛋的例子。
(2)因此这个检测系统的质量指标已经是一个后验概率,因此,某个病患查出阳性后,其后验概率就依然是那个质量指标值。也因此,根本就不需要再次引用贝叶斯概率。
(3)我们在一次讨论中提出,如果高山认为张老师文中提到的假阳率和假阴率过高,那我们换一个更低的概率的建议时,高山指出这个概率并不是我们想改就能改的,并开始讥笑我们造假。
再回头看,高山的那个办法是不是有道理呢?我现在觉得很有道理。如果人群基础患病率已知,检测系统的可靠度亦已标定,那么这套系统在投放市场前,就可以计算一个阳性检出率和阴性排除率。如果这两个指标过低,将会面临两个问题,一是监管审批,一是市场接纳。因此,高山批评,如果这个系统的阳性检出率只有不到百分之一,那这个系统根本就不应该采用。这个批评是对的。这是其一。
其二,我们现在也可以理解,高山同学为何强调P(A|B)的客观性。而且这个概率的客观性在一定前提下也确实是正确的。这是因为,第一,基础患病率是经过统计确定的;第二,检测系统的可靠度也是经过大量统计试验确定的。因此,这个P(A|B)——无论我们称它是后验概率与否——都是客观的。因此,针对任何一位疑似病人,这个概率都是一样的。
总结一下,高山同学是对的,但他一直没有将他认为对的东西解释清楚。他误以为大家都像他一样的天才,这是他犯的惟一错误。
好了,现在再请问一下,如果这个检测系统的可靠度是已知的,而且这个系统是用来对付SARS的。我们根本没有一个基础患病率,这个时候医生拿到一个阳性结果,该如何判断这位疑似病人的患病概率?这时候张老师介绍的方法能用吗?我们只谈方法,不谈数值。我们都是造假大王,可以随时给你造个数字出来,这个你不用担心。
我想这持续将近一个礼拜的争论,终于以高山老师的胜利而结束,这是一个很令人欢欣鼓舞的事情。
在此向高老师致歉!
恰好我这一周的贝叶斯讲完了。我也可以再闪了。
参考文献:高山同学在概率问题上的正确与错误
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 17:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社