||
在·CY呼唤肖子:蕾丝短裤之谜中,提出了问题,但答案其实是明显的,就按贝叶斯定理用三个先验概率硬算,得出:
P(出|裤)= 0.29
女同志可能会认为这个概率太小而愤怒,但那是Silver算的,跟老邪无关。薛宇 博主计算的结果是0.2941(评论16),应该与Silver算的是一致的。Silver解释说,这只是国家统计局数据的0.04偏低。而且蕾丝内裤只是孤证,先验出轨概率提高到0.29后其它可疑因素造成的出轨概率会大大增加。
那么,前面讲的两个例子,有什么根本差别呢?
首先,乳腺癌例子的先验知识是四个“与”案例是给全了的;蕾丝短裤例子只有三个先验概率,而没有明确的四个独立的“与”集合。这明显是因为医学界有大量统计数据,来给出X光阳性而活检无癌,以及X光阴性而活检有癌的案例数。而(美)国家统计局虽然能给出出轨率,不太可能细化到这出轨率中多少是由蕾丝短裤被发现而引起的。这就只能靠贝叶斯定理来推算。
要理解何以能用三个独立的概率,来算第四个,我们先复习一下数形结合的文氏图。文氏图把万物的集合(太极)表为一个长方形,其中包含两个小园,分别为A集合与B集合(两仪),这样太极就划分为四象:AxB、-AxB、–Ax -B、Ax –B(这里x表示逻辑乘,即“与”;而负号表示逻辑非)。呵呵,这不是LL的专利吗?是的,LL申请了,但只怪笛卡尔和老子找不到专利局,也找不到科学网。按文氏图,A、B两个小园可作直线运动,相离或相交。对于贝叶斯定理来说,是针对两个小园相交的情况的,此时太极(长方形)仍然是互斥(不相交)的四个子集,但表达式留给读者自己作。
其次,Silver的上述两个例子的差别,是先验知识“置信度”的差别。乳腺癌例子采样数应该远大于1000。估计Silver认为他的图2,有1000,就足够小数点两位了。所以只图示了一千。真实数据量应该是百万级的,但是因为我们没有正式数据量,现就按Silver的1000算。这个时候,增加一个新案例,无论先验的四个“与”案例分布如何,除非新案例落到4个中最小的那一个子集中,后验概率的变化几乎可以不考虑。只有新案例积累到一定数量以后,才有必要对先验概率作出更新。
在贝叶斯定理的实际应用中,我们遇到的情况往往是只有三个先验概率的情况,并没有四种情况的先验的案例分布。这时,我们不得不面对的一个问题就是新观察与先验之间如何加权。这是一个比较艰难的问题。以蕾丝短裤为例,先验知识中只有P(出)是有数据量的,国家统计局取得这样的概率应该是相当可靠的。但是另外两个,即P(裤|出)和P(裤|未),完全来自女方对男友的先验判断。是相当不可靠的。薛宇 博主进一步计算了假如对男友的辩护这个先验P(裤|未)值从0.05降到0.01,那男友出轨的概率就会上升到67.57%。老邪认为薛宇 博主的看法是合理的,抓住了贝叶斯定理实际应用中的一个关键,就是这个先验知识的加权问题。我们在病态反演问题上,用的办法是先验知识用最大值和方差来表示,只是部分解决(或混过去)了这个问题。但数学上严谨而应用简洁的解决办法,好像还有待继续努力。如果哪位博主有这方面的文献或想法,欢迎指教。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-16 07:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社