||
背景
上面的博文【2】写于2013年暑假访问湖南大学期间。当时老邪留言,问了我这样一个问题:怎么分别标记先验知识和后验知识的可靠性。他后来进一步补充解释这个问题的来由:“作某一次试验以前,我们有一个先验概率。试验以后,我们更新了原来的先验概率。如果变动很小,问题不大。但更新的幅度太大,就会有一个问题:一次新试验,能引起这么大的变动吗?所以就有这么一个非常实际的问题。” 我当初胡乱地答了一通,这些对话都记录在网,有兴趣的朋友点击进去就能看到。
这几天的讨论,我想如果老邪健在,他可能会要重问我这个问题。他当时没有给我回馈,但我猜他对我的回答不会满意。这两天的讨论,给我一些启示。每个人认识问题的角度不一样。如果光是为了解决某个具体问题,我们可以满足于自己对某一个概念的把握;但如果是教学,我们要能应付得了形形色色的问题,就得强迫自己从他人的角度来理解他们的困惑。如果我们只是一味坚持在自己的话语体系里头自说自话,最终我们只会陷入Tower of Babel之中,循环着定理一和定理二的错误,无法实现有效的沟通。其实写文章也是一样,如果不注意降低聊天的视点,别人无法真正理解你从哪里来,到哪里去,为什么要走那条路,等等等等。
今天着重聊一聊高山老师提到的一个问题:一个个体患病,能不能用贝叶斯的方法来分析?
这个问题得瓣开来慢慢讲。质胜文则野,文胜质则史。冒着迂腐的风险,慢点来。
这个问题分几部分:个体患病能否用概率来描述?如果可以,那么在一次检测结果出来后,能否采用贝叶斯方法来计算?再一步,假设一次检测为阳性,另一次检测结果为阴性,怎么办?
一 先验概率
个体患病的不确定性能否用概率来描述?这是许多博友的问题。科学网有意思的地方,是大部分人都学过概率论。学过不代表真懂,原因很多,一是学生时代没有认真学,二是老师也没有认真教,三是老师可能也没真懂,教材也操蛋。具体分布嘛,科学网下,原因一大概占95%,科学网上,原因三大概占95%。为什么这么讲呢,好几个朋友在讨论区讲:概率只是用来描述总体的,怎么能用来描述个体呢?
老师的职责就是先把自认为懂的学生搞糊涂,然后让他们自己去悟懂。
G君身体不适,去看医生。江湖医生Y看了一回,开了一味六味地黄丸。服用六天一个疗程,症状没有任何改善。G君重访。医生Y怀疑某种怪病ED,却不能肯定。医生Y说,G君,你可能ED了,但也可能没有ED。G君怒了:你个庸医,我到底E没ED?医生Y不急不慢:历史统计数据表明,人群中患ED的概率是万分之一;如果我们不再深入检查,我现在只能是将你归为万分之一的可能。
到此,请问读者诸君,你们认为这个医生与病人之间进行了有效沟通了吗?换句话说,你们认为G君能够理解医生Y的那句话吗?
许多朋友说,一个个体,是否患病,是就是,不是就不是。哪有什么概率可言。兄弟,你这完全搞混了概率是用来干嘛的。如果一个个体最终是否患病我们都不清楚,那是我们在概念的定义上出了问题。而实际上,现实中确实存在无法就概念的定义达成一致的情况。比如对一个脑袋上只剩下七根头发的细毛(长沙话),你叫他秃子呢还是不是秃子呢?这是模糊数学试图解决的问题。
概率方法试图解决的问题是,某个不确定事件,它有可能发生不同的结果,但是我们对真正的结果并不确知。注意,这个不确定事件,并不仅仅可以用来指代将来待发生的事件,它也可以应用于正在发生的和历史已经发生了但不知道结果的事件(考古、侦查、司法都用概率论哟)。在概率论当中,我们将所有可能发生的结果的集合称为总体。但请大家一定一定要分清,概率论中的总体,并非天然地等同于统计学中的总体。
概率就是我们用来量化不确定事件取不同可能结果的可能性的。G君有90%的可能患有ED,S君有5%的可能患有ED。我们都明白这两个数字代表什么意思。这个90%或5%并不是什么统计意义。而是我们对G君可能患病这个不确定事件的某种估计。
到目前为止,没有统计。重要的事情要多说几遍,概率的定义没有用到统计。
这第一个问题还没有完。回到前面的例子,医生Y说在检查之前,他只能认为G君患ED的可能性有万分之一。这里我们需要讨论两个问题?第一,万分之一怎么来的?第二,万分之一的感性认识。第一个小问题,就是老邪问的先验概率的标记(我认为是标定,validation)的问题。群体患有ED的比率为万分之一,为什么要将这个比率套在G君身上?这是一个很好的问题。但我可以反问:你不用万分之一,还有其他更好的办法吗?
有两种方案,一种是,因为没有其他更有用的信息,所以我们只能回归统计母体。咦,我开始讲统计了。是的,万分之一是统计出来的结果,我们当然得讲统计。那么,这个统计结果,在没有其他更有用的信息前提下,能否适用于G君呢?我认为是可以的。人人都有这个基础风险。另外一种方案:因为没有任何信息,G君的先验概率应该是一半一半啊;50%可能得了这个病,50%没有得这个病。历史上,帕斯卡Pascal就这么认为。所谓的insufficient reasoning. 大家觉得呢?
二 贝叶斯方法
现在医生Y给了G君开了检查单,G君划完价回来就开始骂娘,TMD,什么破医院,做个这种鸟检查(确实是查鸟的)也得老子七百大洋。边上G君太太急了,达人(Darling),你是要性福还是要性福还是要性福?G君无法,只好就范(古汉语是不是叫入巷?)
检查结果出来了,阳性。这阳性可是说他那玩意儿能举,而是说,他疑似ED!G君吓坏了,当然吓得更坏的是G君太太。
医生Y可不这么认为。首先,他要想的是如何平稳病人的情绪。许多人不是病死的,都是吓死的。经有过北美医学院系统住院训练的医生Y知道心理作用的重要性。他更知道这个检测系统的可靠性。这套通过天朝卫生部和计生委认证标定的检测系统,具有很高的可靠性,但仍然无法达到100%的确诊率。准确地讲,(对不起,我不知道你们这里的术语,若用术语会更可爱一点),针对十万个ED患者,只有两个漏检为阴性;针对十万个非ED患者,可能只有一个误检为阳性。
医生Y知道G君是生物学博士,机器学习的高人,模式识别的大牛。于是和G君解释这个问题。他说:假设我们让A 代表你患病的可能,Ac代表你不患病的可能。B代表检测为阳性的可能,Bc代表检测为阴性的可能。我们这套系统的可靠性比较高,根据我们卫生监管的标定结果,我们已知 a = P(Bc|A)= 2x10-5, b = P(B|Ac) = 1x10-5.你现在检测为阳性,并不说明你患病的概率就是 P(B|A) = 1 - P(Bc|A) = 1-a = 99.998%。这是因为,你不要忘了,这个检测还有可能有假阳性。这个假阳性率也有1x10-5呢。因此,如果我们根据贝叶斯牧师的不确定性推理原则,我现在认为在这个检测结果为阳性的前提下,你患病的概率应该这样计算:
P(A|B) = P(B|A)P(A) / [P(B|A)P(A) + P(B|Ac)P(Ac).
把前边我解释的数据代进去,你患病的概率大概是 1/(1+0.1) = 90%,没有那么糟糕。也就是说,尽管我们的检测手段非常好,我们仍然没有好到不需要考虑假阳性的可能。如果我们系统没有假阳性,即b = 0,那么这个概率就是1,也就是老百姓常讲的确诊啦。可是,对不起,我们现在无法确诊,因为总有假阳性。但是,不管怎么样,现在概率还是蛮高的,我们暂时只好按ED来治。这回不吃六味地黄丸,改吃附子理中丸。
故事讲完了,读者诸君认为医生Y的分析有没有道理?有没有问题?
大家如果没有问题,我向大家请教两个问题: 第一,如果帕斯卡先生在世,他会不会说这个后验概率应该是这样计算: P(A|B) = P(B|A) / (P(B|A) + P(B|Ac)? 这正是我在文【7】中的答案B。第二,贝叶斯公式实际上是条件概率和全概率公式的应用,但是P(B|A)P(A)到底是什么意思?能不能直接应用?有朋友担心这里涉及到统计本体转移的问题。比如,有人说,P(A)是一个具体个体(G君)的不确定性度量,而P(B|A) 是一个可靠性标定值,其中的A指的是任意一个个体。这种担心有道理吗?
三 多次试验
现在回到老邪先生生前问过的问题,“一次新试验,能引起这么大的变动吗?” 在我们上面的具体例子里,起初的先验概率只有万分之一,一次检查之后,就提高到了90%。这能行吗?这样的诊断靠谱吗?
要回答老邪的问题肯定不能从公式本身来看。但在我再一次天马行空回答他老人家的问题之前,我还是先在公式所及的范围内讨论一下。这个诊断靠不靠谱,现在大家可以看到,(在这个模型前提下)完全取决于检测系统的可靠性。系统的可靠性越高,一次试验数据的信息量越大,那先-后验概率的变化就越大。许多初学贝叶斯统计的人都推导过在non-informative先验分布下,母体均值的后验分布随着数据量增大逐渐收敛到真值的这个结论。因此,不自觉地在对待这个诊断具体问题时,就会产生一个错觉,为什么这里的概率一下子变化那么大?别忘了,我们这里的概率模型是一个贝努利二值模型。
后验概率的标定,我现在觉得可以这样做。仍然以前面的诊断为例。现在医生Y对这个病例的后验概率从原先的万分之一提高到90%。那么,如果我们再做一次检查,我们预期得到阳性的概率是多少?阴性的概率是多少?
为了解释的方便,我们记第一次阳性检查结果为B1,第二次阳性结果为B2,阴性结果为B2c。那么有:
P(B2|B1) = P(B2|A,B1)P(A|B1) + P(B2|Ac,B1)P(Ac|B1) = P(B2|A)P(A|B1) + P(B2|Ac)P(Ac|B1).
B2c的结果就不提了。取决于标定的置信度,我们据此确定需要检查的次数。这个正是我们在核电站检修项目中经常使用的办法。
四 阴阳之争
其实回答了老邪的问题,另外的一些博友提的两次试验一阳一阴的问题基本不值不提了。大家老老实实地应用贝叶斯公式算就是了。P(B1,B2c|A) = P(B1|A)P(B2c|A), P(B1,B2c) = P(B1|A)P(B2c|A) + P(B1|Ac)P(B2c|Ac).
另外加一句,我前面写上了这个检测的费用可不是白写的,本来是想讨论一下这个检测的边际成本的问题的。今天太累了,先写到这了。有兴趣的同学可以想想,做一次检测,将概率从万分之一提高到了90%,花了七百大洋;做两次检测,可以将概率提高到多少?再花七百大洋值得吗?实际上,这就是我现在的研究课题之一。现在大家都玩大数据,但不搞数据经济学不行啊。
五 致谢、感言
科学网有两个高山,一个做量子物理的高山,大牛;另一个做生物的高山,也是大牛。量子高山很少露面了,生物高山非常活跃。
感谢生物高山的争鸣,促发我写下这个我自认为还有些价值的博文。我在这个写作过程当中再一次让自己的观点得到精确化。之前一些迷糊的观点也可以解释得更清楚了。
感谢各位博友的“胡说八道”,让我明白,每个人的视点相差很大,有些观点很简单、朴素、直观 、错误。解释这些错误的直觉,通常很难。
感谢大家维护科学网的人气与学术讨论的风气。
对标题的解释:腐儒是指conservatism,不愿意引入主观概率的人。力博儒是指liberal,认为世上本来就没有客观概率。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-14 05:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社