||
贝叶斯方法真是一个有趣的东西,今天和一位朋友在户外散步一个半小时,聊了一个小时的贝叶斯。这位朋友在工业界工作,成天与不确定性建模和风险分析打交道。我有时为他出一些主意,他为我提供许多工业界可靠度和风险分析的素材。有段时间我们为了双重蒙特卡罗方法来区分两类不确定性的可行性和必要性争了好几个小时的周末散步时光。这样的散步是人生中极其宝贵的科研时光。
今天的博文试图从个体和群体的患病率更新的角度,再看我们一周前的贝叶斯方法的争论。必要提醒的是,我这里写的,并不是针对某个具体朋友的观点,而是针对科学网更为广泛的读者群。如果你自认为没有这样的迷惑,很好,你可以略去不读。如果你在一念之间,闪现了类似的困惑,这篇博文或许能帮助理清一些你原本没有理清的概念。
这篇博文需要一定的概率、统计和贝叶斯方法应用的基础。初学者如果不不太明白为什么可以直接得到后面两个后验概率分布,请自行补充一下Beta分布的基本知识以及共轭分布的概念。
问题
为了一定的继承性,我们这里仍然沿用之前的医疗诊断的问题。这个问题做一些非常细小的名词变化,就可以改换为工程系统可靠性分析,如核电站管道可靠度分析,城市给排水管网失效率估计,公路路段可靠度分析等等。
个体患病概率的贝叶斯更新
这个问题的简化版是:某人身感不适赴医,医生初步诊断后怀疑为某种疾病,送某项专门机器诊断系统检查,结果为阳性。已知此病的人群患病率(或称基础患病率)为p。此外,机器诊断系统的假阳率为r1,假阴率为r2。现在需要估计这位病人在检查结果为阳性时,其患病概率为多少?
根据我们前面的讨论,医生对此病人的后验概率(记作q)估计为:
$q = \frac{p(1-r_1)}{p(1-r_2)+(1-p)r_1}$
上式可以进一步简化为
$q = \frac{1}{1+\frac{r_1}{p}\cdot \frac{1-p}{1-r_2}}$
具体地,假设 $p = 0.1\%, r1 = r2 =1\%$ , 则 $q \approx 1/(1+10 \times 1) \approx 9\%$ . 也就是说,此病人的患病概率从检查前的0.1%提高到检查结果为阳性后的9%,概率提高了近90倍。
群体患病率的更新
上述个体患病概率的贝叶斯更新问题,有人会误以为是如下问题:
某病(可以理解为流行病)的基础患病率为p. 一日,某人身感不适赴医,医生初步诊断后怀疑为此流行病,送某项专门机器诊断系统检查,结果为阳性。此病人经进一步病理检查,确诊为此流行病,医院将此病例上报疾病控制中心。请问此时疾病控制中心对群体患病率的判断是否发生变化?如果发生变化,此变化是多大?
假设群体患病率p符合Beta(1,N)先验分布:
$f(p)=\frac{1}{N}(1-p)^{N-1}$
注意其均值为1/N. 若N=1000,则其先验均值为0.1%.
此时如果有一位确诊病人,其似然函数为
$L(p)=p$
利用贝叶斯公式,其后验分布为 Beta(2,N)
$f_1(p)=\frac{1}{N(N+1)}p(1-p)^{N-1}$
其后验均值为2/(N+1). 若N=1000, 则其后验均值增加一位,上升到0.2%.
比较有意思的是,如果在此病人刚刚拿到阳性结果,但病例尚未得到病理确诊时,医生已经将此病例以疑似上报疾控中心,请问此时的后验分布是什么?已知此机器诊断系统的假阳率为r1,假阴率为r2。
这时的贝叶斯更新方法与此前描述基本相似,惟一区别在于似然函数发生了变化:
$L(p|Data)=\Pr(Data|p)=\Pr(+|T)\Pr(T)+\Pr(+|F)\Pr(F)$
亦即:
$L(p) = p(1-r_2)+(1-p)r_1 = (1-r_1-r_2)p+r_1$
此时的后验贝叶斯分布为 Beta(2-r1-r2,N).其后验均值为 (2-r1-r2)/(N+1).
进一步,如果在接下来的100个收诊病人中,有5个确诊为该病,另95个确诊不是此病,那么其后验分布更新为Beta(6,N+95).
小结
由以上分析可知:
(1) 贝叶斯分析既可以应用于个体患病概率的更新,亦可应用于群体患病率的更新。但是,针对不同的应用对象,我们所采用的数学模型是完全不同的。在应用于个体时,不确定性建模的对象是个体是否真实患病这个未知事实,概率在这里是对这个未知事实的不确定性的度量。在应用于群体患病率的更新时,不确定性建模的对象是患病率(这个率更应理解为比率或频率)。由于患病率是一个可以从0到1变化的实数,对于刻划它的不确定性的工具是某个在[0, 1]区间中的概率分布函数,如Beta分布。
此外,在数量上,当贝叶斯方法应用于个体时,先、后验概率会有很大的变化,这个变化是由数据的相对可靠性决定的。在实际机器诊断之前,我们对此个体的患病概率的认识非常有限,只能采用基础患病率。但是,机器诊断是完全针对个体的,这个机器诊断信息对于此受检个体而言,是有很大的信息量的。因此,在诊断为阳性后,其后验概率的变化通常会有多个数量级的变化。与此不同的是,当贝叶斯方法应用于群体时,先、后验概率分布函数的变化比较有限。这个变化主要与数据量有关,当数据量很大时,后验概率分布将主要受实测数据控制,先验概率的影响逐渐减弱。
(2) 贝叶斯分既可以应用于完整数据(确诊病人数目)下的更新,亦可应用于不完整数据(疑似病人数目)下的更新。有趣的是,在不完整数据下的更新时,达到相同更新效果所需要的数据量有可能远比完整数据下所需要的数据量要大。在我们上述例子中,一个不完整数据只相当于1-r1-r2个完整数据。
如果你对第(2)点不完整数据下的贝叶斯分析感兴趣,请阅读我和夫人惟一的合作论文:
Yuan, X.-X., Mao, D. and Pandey, M. D. (2009). A Bayesian approach to modeling and predicting pitting flaws in steam generator tubes. Reliability Engineering and System Safety. 94: 1838–1847.
另可参考本人将不完整数据下的贝叶斯分析应用于随机相关竞标模型的参数估计:
Yuan, X.-X. (2012). Bayesian method for the correlated competitive bidding model. Construction Management and Economics. 30 (6): 477-491.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-19 22:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社