||
相信大部分的读者对线性回归方程的统计分析模型比较熟悉。从统计理论的角度,一个线性回归方程其实就是一个条件概率分布函数(a conditional probability model) – Pr(Y|X,β),其中Y代表结果变量(outcome variable or dependent variable),X代表预测变量(predictor variable or independent variable),β代表的是相关的模型参数的集合。
贝叶斯网络(Bayesian network) 则是一个联合概率模型(a joint probability model)。贝叶斯定理与概率计算的链式法则(Chain rule of probabilities)就是支撑贝叶斯网络的两个基本理论公式,使我们能够构造出一个联合概率模型使得贝叶斯定理能在两个以上的随机变量的情况下得到应用。
托马斯. 贝叶斯(Reverend Thomas Bayes, 1701-1761),英国人,生前是一位神职人员,也是一位数学家。贝叶斯定理的数学公式为:
,其中Pr(A)、Pr(B)是边际概率(marginal probability), Pr(A|B)、Pr(B|A)是条件概率,Pr(A and B)是随机事件A和B的联合概率。
实际科学研究需要建立的模型通常包含很多的变量,这时我们就要通过应用贝叶斯定理与概率计算的链式法则把所有的变量都整合在一起成为一个大的联合概率模型。如下图所示,前两行给出的是只有两个变量的联合概率公式;后四行是有四个变量的联合概率公式及解释 - 联合概率的形成与所包含的变量互相结合的先后次序无关。
贝叶斯网络模型一旦建好了,模型中的任何一个或几个变量都可以被当作结果变量来研究。这是与传统的回归模型分析完全不同的地方。
用一个例子进一步说明。以下从图1至图5是一个由四个随机变量构成的贝叶斯网络模型。具体详细说明见每个图的说明。正如上面所解释的,每个贝叶斯网络模型都是一个联合概率模型,因此,图2至图5给出了四种不同的后验概率分布(Posterior probability distribution)的结果,也是四个不同的具体的例子说明模型中的任何一个或几个变量都可以被当作结果变量来研究。请注意,如果是传统的回归模型,我们只能得到图2的分析结果。
写这个博文的目的之一是可以帮助对贝叶斯网络模型不熟悉的读者更容易读懂前一篇博文提到的贝叶斯网络分析的部分。
图1:一个蘑菇分类(Mushrooms 可食用/有毒)的贝叶斯网络模型,相关变量为蘑菇的气味(odor)、头盖部分的形状(cap shape)、及生长时个体分布规律(population pattern = 一群一群,还是单独一个,等等)。每个变量都由一个节点(node)代表,中间列的数字是百分数,每个变量的百分数都应该加总到100%。右边一列的条形图是百分点数字列的相应图形表达。
图2:蘑菇分类变量(Mushrooms)作为结果变量,其它三个变量作为预测变量的分析结果:注意到结果变量(Mushrooms)的变化,在给定的条件下(蘑菇标本没有特殊的气味,头盖部分呈拱起状,个体分布规律为几个在一起)判定为可使用蘑菇的可能性从基准状态的53.3%提升到了92.5%。
图3:蘑菇分类变量(Mushrooms)作为预测变量(在贝叶斯网络分析中也称为证据变量=evidence variable),其它三个变量作为结果变量的分析结果
图4:蘑菇分类变量(Mushrooms)及个体分布规律作为结果变量,其它两个变量作为预测变量(=证据变量)的分析结果
图5:蘑菇个体生长分布规律变量(population)作为结果变量,其它三个变量作为预测变量的分析结果
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 17:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社