前面介绍了贝叶斯方法在机器学习领域的强大优势,这里展示贝叶斯方法的“屠龙刀”----概率图模型。
概率图模型有以下三个方面的优势:
1、给出了概率模型内在结构的一个简单图式展示,尤其是变量之间的独立关系;
2、概率模型的性质与表示该模型的图存在一种等价关系;
3、对概率模型的操作(包括推理和学习)可以通过对图的操作进行,而图论方法来源于离散数学。
依据有向图和无向图,可以将概率图模型分为贝叶斯网络或可信网络(belief networks)(有向图)和马尔可夫网络(无向图)。贝 首先介绍一下叶斯网络给出了概率模型中变量之间的独立性关系,如下图1就是一个贝叶斯网络,以这个模型为例,展开对贝叶斯网络的一些性质的讨论。
由上图可知,概率模型中包含有$\{x_1,x_2,\ldots,x_7\}$共7个变量。在贝叶斯网络中,结点(变量)之间满足这一一种关系
$p(x_1,x_2,\ldots,x_n) = \prod_{i=1}^{n} p(x_i|pa(x_i))$
$pa(x_i)$表示结点(x_i)的父亲结点。也就是说,联合概率只与其直接相连的父亲结点有关。故上图给出的概率模型,其联合概率为
$p(x_1,x_2,\ldots,x_7) = p(x_1)p(x_2|x_1)p(x_3|x_1,x_2)\ldots p(x_7|x_1,\ldots,x_6)$
$= p(x_1)p(x_2)p(x_3)p(x_4|x_1,x_2,x_3)p(x_5|x_1,x_3)p(x_6|x_4)p(x_7|x_4,x_5)$
下图给出的是隐马尔可夫模型(hidden Markov model, HMM)示意图:
由贝叶斯网络的上述性质,我们可以得到HMM的联合概率:
$p(x_1,\ldots,x_{n+1},z_1,\ldots,z_{n+1}) = p(z_1)\left(\prod_{i=2}^{n+1}p(z_i|z_{i-1})\right)\left(\prod_{j=1}^{n+1}p(x_j|z_j)\right)$
如果上图中$x_i,z_i$都服从高斯分布,则该图表示的就是卡尔曼滤波(Kalman filter)。
下面介绍马尔可夫网络,又称马尔可夫条件随机场(Markov Random Field)。在介绍马尔可夫网络之前,需要了解clique的概念。一个clique就是一个图中全连通的子图,用C表示clique,用$x_C$表示clique中的变量集,那么马尔可夫网络的联合概率可以写成
$p(x_1,x_2,\ldots,x_n) = \frac{1}{Z}\prod_{C} \psi_{C}(x_C)$
$\psi_{C}(x_C)$表示C的势函数,$Z=\sum_x \prod_{C} \psi_{C}(x_C)$是归一化因子。上式又称为吉布斯分布(Gibbs distribution)。
如果限制势函数严格大于0,那么,就可以用一个指数形式表示,即
$\psi_C(x_C) = \exp{\{-E(x_C)\}}$
其中,$E(x_C)$称为能量函数,这个指数表示性质称为Boltzmann分布。
无向图模型中,还有一个概念被称为因子图,如下图所示:
其联合分布表示为
$p(x_1,x_2,x_3) = f_a(x_1,x_2) f_b(x_1,x_2) f_c(x_2,x_3) f_d (x_3)$
因子图在推理算法的表示中起着很重要的作用。
参考文献:
Daphne Koller and Nir Friedman. Probabilistic Graphical Models: Principles and Techniques.Massachusetts: MIT Press. pp. 1208. ISBN 0-262-01319-3.
转载本文请联系原作者获取授权,同时请注明本文来自廖红虹科学网博客。 链接地址: https://blog.sciencenet.cn/blog-507072-636391.html
上一篇:
A New Framework for Machine Learning ---贝叶斯方法 下一篇:
机器学习应该关注什么?