一个科学“叛徒”的世界分享 http://blog.sciencenet.cn/u/xqhuang 脚踏实地的土鳖,仰望星空的猴子

博文

贝叶斯:XX与YXX,谁当院士的概率更大?

已有 3589 次阅读 2017-4-20 12:29 |个人分类:乱七八糟|系统分类:观点评述|关键词:概率,贝叶斯,人民的名义,中枪

贝叶斯:XX与YXX,谁当院士的概率更大?


“概率”一词,已无孔不入地侵入现代人生活的方方面面,装NB也好、扮SB也罢,就像当年有人喜欢把U盘挂在胸前乱晃,把似懂非懂的“概率”挂在嘴边已成一种时尚。

人生,不过是一场确定性死亡的概率游戏?

这个清明节出了点意外,这么说吧,那一刻有很大的概率要与科学网永远了,上帝保佑!清明思故人,大学同窗可舟兄生前曾感叹:“上帝开了我个天大的玩笑!”,大名鼎鼎的霍金有个中国学生叫吴忠超(霍金科普著作的中译本,几乎都是他的杰作),可舟兄在美国与吴忠超做了N年面对面邻居,M年后,却不幸得了与霍金一模一样的病,以概率的语言,这算中头彩吧?

前些日子,死气沉沉的科学网好似恢复了一丁点人气,XX帮与YXX帮因张天蓉博主的博文《概率论悖论》而纠缠厮杀,双方火拼的根本原因是《概率论悖论》中的贝叶斯概率例子:

王宏去医院作验血实验,检查他患上了X疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有1%的人是假阳性,99%的人是真阳性。而在未得病的人中做实验,有1%的人是假阴性,99%的人是真阴性。于是,王宏根据这种解释,估计他自己得了X疾病的可能性(即概率)为99%。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染X病的概率便应该是99%。

可是,医生却告诉他,他被感染的概率只有0.09左右。这是怎么回事呢?王宏的思路误区在哪里?

医生说:“百分之九十九?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。”

医生的计算方法是这样的:因为测试的误报率是1%,1000个人将有10个被报为“假阳性”,而根据X病在人口中的比例(1/1000=0.1%),真阳性只有1个。所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约1/11,即0.09(9%)。


问题:王宏“中枪”的概率到底是99%还是9%?

提到贝叶斯,自然想起黄金时期的科学网和老邪博友。大约是三年前,老邪因一双布鞋而意外成为网红,那段时间老邪写了多篇关于贝叶斯的博文,出于娱乐博眼球,我无脑地跟风了一篇:《老邪、外国女郎与蕾丝内裤》,虽然老邪宽宏大量不计小人过,我还是知趣地选择了隐藏博文。今天重读老邪当初的私信留言,仍能感受到他老人家的智慧和独特人格魅力。

写那篇博文,除了娱乐更想表达本人对概率的一贯“偏见”:概率不是严格意义下的科学,概率论在科学研究中的所谓应用,更像是公婆说理、神仙算命,算不清、理还乱,99%与9%之争就是最好的例证。贝叶斯概率乱象的背后一定存在更深层次原因,我认为根源在“条件概率”,本文就试着“摆事实讲道理”,顺便给出一个概率判据:XX与YXX谁更接近真相?

“概率”点破了就是一种数学游戏,其基础是游戏玩家可以有意无意地利用“障眼法”实现不确定性,比如暗箱摸球、掷骰子、投硬币等,它们的“概率性”都是人为创造出来的,只要玩家愿意,这些“概率”都是确定性地可调可控,本文就不具体展开讨论了。

下面我将利用投硬币讲解“条件概率”,所谓“条件概率”(或后验概率),就是指在事件B已经发生的前提条件下,再发生事件A的概率,数学上用P(A|B)来表示,它满足:P(A|B)=P(AB)/P(B),其中P(AB)代表A和B事件同时发生的概率、P(B)代表B事件独立发生的概率(或先验概率)。


问题一(无条件概率):如上图(a),一枚硬币随机投2次(第一次用B记、第二次用A记),问:二次全是正面的概率是多少?答:P(AB)=1/4;问题二(条件概率):如上图(b),已知第一次投币是正面(相应的先验概率P(B)=1/2),问:第二次也是正面的概率(条件概率)是多少?答:P(A|B)=P(AB)/P(B)=(1/4)/(1/2)=1/2。大家不难看出,无条件概率与条件概率的本质差异,前者是双随机事件、后者已退化为单随机事件。

谨记:先验概率与对应的条件概率(后验概率)之间是存在严格的因果关系,或它们是关联配对纠缠的,切莫乱点鸳鸯谱。

贝叶斯定理可以用公式表示为:


科学网有多篇博文对上式的“科学价值”进行过专业解读,反正我是似懂非懂,在《概率论悖论》一文,张天蓉博主利用它研究了王宏的“中枪率”,作为普通大众我同样困惑:先进仪器锁定的99%可能性的疑似X病王宏,为什么要扯上毫无关系的全世界人民[P(B)=(全世界患X病的人数)/(全世界人数)]?本人的观点:这是胡扯!理由:X病在公众的发病率与仪器测试的准确率之间不存在任何因果关联,两者不能建立条件概率关系。

举例证明,假设XX与YXX博主同时参加院士竞选并成功杀入最后一轮,根据历史统计数据,他们能最终当选的概率为80%,显然,如果不考虑其它因素(是否海龟?是否985?是否院士弟子?是否有NSC论文?是否有国家大奖?。。。),XX与YXX都有80%的可能性最后当选。张天蓉博主肯定不同意这个结论,以张博主的思维:XX与YXX最后当选院士的概率要远低于80%,因为必须考虑,在全国人民中院士人数仅占百万分之一的事实。张博主,被概率是统计局的把戏,请不要乱借全国人民的名义,这事与人民无关!

作为最基本的科学素养,玩科研首先要明确研究对象,否则就是瞎玩。如果一定想对院士评选玩条件概率,第一、必须明确院士(已投硬币)和准院士(将投还未投的硬币)才是研究对象;第二、在已当选的院士中寻找有参考意义的先验概率(相当于已投出并确定正反面的硬币),比如,当选院士的海龟65%、985毕业85%、有国家大奖90%、男性98%、年龄60岁以下75%、。。。;第三、在院士与准院士之间建立条件概率关系。同理,王宏的贝叶斯可以这么玩,第一、已确认X病患者和疑似X病患者为研究对象;第二、在确认X病患者中寻找先验概率,比如,X病患者中XX染色体的中枪率为20%、YXX染色体的中枪率为80%;。。。

XX与YXX,谁当院士的概率更大?很多人以为评院士也是一个概率问题,其实,不过也是一场确定性结果的概率游戏。



http://blog.sciencenet.cn/blog-480705-1050021.html

上一篇:刻舟求剑:回不去的人生起点
下一篇:贝叶斯:99%的背后!

34 黄仁勇 陈楷翰 杨正瓴 宁利中 徐晓 魏焱明 武夷山 李颖业 袁贤讯 李学宽 徐令予 丛远新 刘全慧 罗教明 李亚平 付福友 魏武 赵美娣 李竞 李由 mistake zhouwangpu mxt110 xiyouxiyou haipengzhangdr icgwang wangqinling laijianshan houzhenyu ychengwei xiaobaobao888 ypxin gaoshannankai watercold

该博文允许注册用户评论 请点击登录 评论 (68 个评论)

数据加载中...

Archiver|科学网 ( 京ICP备14006957 )

GMT+8, 2017-8-20 19:38

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社