不动如山分享 http://blog.sciencenet.cn/u/hustliaohh 脚踏实地,稳步向前

博文

A New Framework for Machine Learning ---贝叶斯方法

已有 6247 次阅读 2012-11-25 11:07 |个人分类:科研道路|系统分类:科研笔记| 机器学习, Bishop, 贝叶斯方法

作者:Christopher M. Bishop

出处:J.M. Zurada et al. (Eds.): WCCI 2008 Plenary/Invited Lectures, LNCS5050, pp. 124, 2008.

 

Abstract: 过去几年,机器学习以来以下3个方面的发展取得了很多实际应用上的成功,即:1)采用了贝叶斯理论,2)使用图模型表示复杂的概率分布;3)应用了快速的、确定性的推理算法,如变分贝叶斯(variational Bayes)和期望传递(expectation propagation)

 

Bayesian Methods:概率提供的是一种不确定性的度量,在机器学习中,这种不确定性来自于观测数据的噪声、不可观测的隐变量(latent variables)和模型的参数。因此,概率理论提供了这些不确定性的求解理论和方法。依据模型是否含有一系列参数,可将机器学习分为有参数的(parametric)和无参数的(non-parametric)两大类(这两类并没有明显的界限)

  如果将模型的参数表示为W,观测数据表示为D,则条件概率$p(D|W)$被称为似然函数(个人认为之所以称为似然,实际上在一定程度上这个函数度量了观测数据D与模型的匹配度),最大化条件概率 $p(D|W)$ 的方法就成为最大似然估计(MLE)。如果参数过于复杂,则模型可能会将数据中的噪声也拟合很好,使得在后续对未来数据预测出现很大的偏差,这个现象被称为过拟合(over-fitting)。相反,如果参数过于简单,则会出现拟合不足,即模型丢弃了数据中的某些信息,同样会造成对未来数据预测出现很大的偏差,这个现象称为拟合不足(under-fitting)。如下图所示,左上角是拟合不足,右下角是过拟合。

     

  假设模型参数的先验满足p(W),先验给出了除了观测数据D提供的信息之外,我们对参数的所有可能知识。因此,贝叶斯公式可以表示为

  $ p(W|D) = \frac{p(D|W)*p(W)}{p(D)} $             (1)

$ p(D) =\int p(D|W)*p(W) dW $

最大化p(W|D)被称为最大化后验(Maximizea Posterior, MAP). 

   下面考虑一个多项式拟合的例子,假设多项式函数表示为

  $y(x,W) = w_0 + w_1 x + w_2 x^2 + \ldots + w_M x^M$

上图给出了M取不同值时的拟合情况。下面首先给出传统的,非贝叶斯方法的求解过程。
      为了得到算法的最优解,通常需要一个损失函数(loss function),在这里使用误差平方和(sum-of-squares error),表达式如下:
                                $E(W) = \frac{1}{2} \sum_{i=1}^n \{y(x_i,W) - t_i\}^2$     (2)
其中,$\{x_i,t_i\}_{i=1}^{n}$为观测数据集及其真值。
 取均方根误差(root-mean-square error)为$E_{RMS} = \sqrt{2E(W^{*})/n}),W^{*}$为当前模型下的最优参数。下图给出了多项式取不同的维数是的均方根误差。
由图可以看到,随着模型复杂度的增加,即M的增大,对观测数据的拟合越来越好,训练误差愈来愈小,但测试误差却越来越大,出现了过拟合现象。
    从贝叶斯的观点来看,假设数据集$\{x_i,t_i\}_{i=1}^{n}$独立同分布,不失一般性,假设服从高斯分布
                  $p(D|W) = \prod_{i=1}^{n} N(t_i|y(x_i,w),\beta^{-1})$    (3)
同时假设参数服从高斯先验,(假设高斯先验是为了满足共轭性,见作者06的书)
                 $p(W|\alpha) = N(W|0,\alpha^{-1}I)$               (4)
于是,依贝叶斯公式,对新的位置$x$其估计值的表达式为
              $p(t|x,D) = \int p(t|x,W) p(W|D) dW = N(t|m(x),s^2(x))$     (5)
上式积分号里面有两项,第二项是后验概率,用于依据当前给定的观测数据估计模型参数,第一项是依据估计出来的参数,预测给定位置的值,$p(t|x,W)$的表达式为$p(t|y(x,W),\beta^{-1})$。下图给出了在4个观测数据的情况下,贝叶斯方法的拟合结果。红线表示拟合结果,绿线表示真实曲线,粉红色区域表示方差。
随着数据点的增多,拟合会越来越接近真实分布,且方差会越来越小。
    对后验分布对自然对数之后,我们可以得到
           $\ln p(W|D) = -\frac{\beta}{2}\sum_{i=1}^{n} \{t_i - y(x_i,W)\}^2 - \frac{\alpha}{2} W^{T}W + C$  (6)
这实际上就是经典分布中常使用的正则化技术。正则化技术用来限制模型的复杂性,通常要在训练准确度和模型的复杂度之间取折中。贝叶斯方法通过假设先验分布,实际上是依赖先验知识对模型进行了进一步的限定,从而避免模型出现过拟合现象。
    同时,贝叶斯方法可以用于机器学习的模型选择。模型选择一直是机器学习领域一个重要的研究问题,通常采用交叉验证技术(cross-validation)。那么,从贝叶斯的观点来看,假设现有一系列模型$\{M_i\}_{i=1}^{L}$,对于给定的观测数据D和模型的先验概率$p(M_i)$,由贝叶斯公式可得
                  $p(M_i|D) \propto p(M_i)p(D|M_i)$    (7)
先验概率可以是依赖各个模型的性能给出。公式(7)实际上又回到了公式(6)的情形。
    那么,自然就会有一个疑问:如何选择合适的模型概率分布合适的概率先验? 这也正是困扰本人的问题之一。

未完待续。
重要参考文献:Bishop, C.M.: Pattern Recognition and Machine Learning. Springer, Heidelberg(2006)



https://blog.sciencenet.cn/blog-507072-635995.html

上一篇:自我
下一篇:A New Framework for Machine Learning ---概率图模型
收藏 IP: 122.205.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 01:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部