||
在 求教:贝叶斯定理(乳腺癌例) 评论4,王春艳 说:“我都回来了,肖子还端着不下来。很感兴趣老邪的问题,可惜手头上没书,以后也弄本翻翻,要是肖子能赏脸耗力帮大家把问题整理出来讨论,那是要非常感谢滴”。
感谢肖子,及时解答了老邪的疑问。希望响应CY妹妹的呼唤,接着回答老邪的疑问:怎么样讲贝叶斯定理,最容易被同学理解无误。我想,就从这个乳腺癌例讲起。Silver取4个用历史先验案例表达的概率,和4个导出的边际概率,分别为:
真有癌 无癌 总计 边际概率
阳性: 11 99 110 P(阳)
阴性: 3 887 890 P(阴)
总计: 14 986 1000
边际概率:P(有) P(无)
注意这里,人们习惯是说真阳性、假阴性表示真有癌。但如果按真假排列两列,边际概率就便成对角线的和了。折衷表示,下文用P(真)=P(有),先看读者感觉再定。
这样,未作X光检测时,一个40岁左右的女同志,患癌的先验概率是P(真)=0.014。这时候,她去作X光检测,测到阳性的概率P(阳)= 11%。值不值得去测呢?如果测到的新的数据是阳性,她真有乳腺癌的条件概率P(真|阳)是多少呢?11/14=0.786?还是11/110=0.1? 显然,应该是后者,仍然很低。那么,就应该看还有没有其他症状来决定是否作X光。(这样讲,好理解吗?有漏洞吗?)
要注意,这个例子中,四个先验“与”案例数是彼此独立的,但导出的4个边际概率是受限制的:P(阳)+P(阴)=P(真)+P(无)=1.0,就是说,其中只有两个是独立的。这就创造了用三个概率来计算一个未知条件概率的可能,即贝叶斯定理。这里表述为:
P(真|阳)= P(阳|真)*P(真)/P(阳);或者其中的P(阳)表述为:
P(阳)= P(阳|真)*P(真)+ P(阳|无) *( 1-P(阳|真) )
由于上例中,先验知识是有冗余量的,所以可能看不出贝叶斯定理的重要性,现在回到Silver的第一个例子:发现男友衣柜里有一条蕾丝内裤!男友出轨了吗?
先验知识:
P(出)=0.04 来自国家统计局数据
P(裤|出)=0.5 来自对男友细心程度的估计
P(裤|未)=0.05 来自对男友各种可能辩护合理性的估计
这样,没有人能填满四个先验格子,但是在开始打架之前却可以算出在发现蕾丝内裤后对男友的的确确出轨的后验概率为?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 15:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社