博文

高斯过程

已有 10551 次阅读 2013-8-20 22:51 |个人分类:机器学习|系统分类:科研笔记| 高斯

高斯过程是定义在y上的高斯分布。高斯过程与核函数紧密相连，定义在y上的高斯分布正是通过核函数表示出来的。与线性回归相比，高斯过程没有建立y和x的直接关系，而是通过核函数的方式直接建立y之间的关系。在线性回归模型中，我们假设某个y的取值服从一个高斯分布 $p(y) = N(y|w^T\phi(x),\sigma^2)$ ，即y的均值是参数w的一个线性关系， $y_m$ 和 $y_n$ 之间的关系通过w的协方差表现出来。如果给定一个先验 $p(w) = N(w|0, \beta^{-1}I)$ ,那么可以计算出y的协方差矩阵，如下：

$cov(y) = E(yy^T) = E(\Phi ww^T\Phi^T) \\= \Phi E(ww^T) \Phi^T = \Phi cov(w)\Phi^T = \beta^{-1}\Phi\Phi^T$ (1)

注意到上面的矩阵 $\Phi$ 是一个N×M的设计矩阵，矩阵的每一行 $\phi(x_n)^T$ 表示训练集中的一个特征向量，令 $\Phi\Phi^T = K$ ，是一个N×N的矩阵，K矩阵的第m行第n列的元素是 $\phi(x_m)^T\phi(x_n)$ 表示一个核函数。因此y的协方差矩阵可以通过核函数表示出来。那么什么是核函数呢？核函数是一个二元函数，定义为两个向量的内积：

$k(x_m, x_n) = \phi(x_m)^T\phi(x_n)$

可以理解为两个点之间的相似关系。我们可以从核函数的角度重新理解线性回归。在线性回归中，我们认为 $y = w^T\phi(x)$ , $\phi(x)$ 是一个特征向量,用最小二乘法的损失函数如下所示：

$J(w) = \frac{1}{2}\sum_{n=1}^N(\phi(x_n)^Tw - t_n)^2 = \frac{1}{2}||\Phi w - t||^2$ (2)

对其进行求导，并令导数等于0,我们可以得到如下等式：

$w = -\frac{1}{\lambda}\sum_{n=1}^N{w^T\phi(x_n)-t_n} = \sum_{n=1}^Na_n\phi(x_n) = \Phi a$ (3)

其中： $a_n=-\frac{1}{\lambda}\{w^T\phi(x_n)-t_n\}$

现在我们将公式(3)代入线性模型，得到

$y = a^T\Phi\phi(x) = a^Tk(x)$ （4）

$k(x)$ 是一个核函数向量，它的每个元素 $k(x)_i = \phi(x_i)^T\phi(x)$ ，上述过程可以认为是由特征向量向核向量转化的过程，也可以看作一个新的特征向量。区别在于，原来的特征向量是一个有穷维的，而新的核向量是一个无穷维的。我们称公式(4)是原来线性模型的对偶形式，特点在于可以通过核函数的方法把y之间的关系表示出来，而没有引入额外的参数w，这种特性天然的和高斯过程联系在一起，高斯过程的优点也正在于我们可以定义各种各样的核函数表示y之间的协方差，而不必明确指定出x的特征向量。高斯过程摒弃了线性模型参数的思想，直接通过核函数建立y之间的关系，从一个有参模型过度到无参模型。

上面讨论了高斯过程的定义以及高斯过程中用到的核函数，如何用高斯过程进行回归呢。这就要利用高斯分布的特点。如何y是一个服从高斯分布的M维向量， $y_a$ 和 $y_b$ 分别是y的两部分，那么它们各自的边缘分布 $p(x_a)$ 和 $p(x_b)$ 也都是高斯分布，并且条件分布 $p(x_a|x_b)$ 也服从高斯分布。现在我们假设有N个训练集，并且要预测第N+1个数据x对于的y。我们的做法是，假设这N+1个数据服务高斯分布，并给定一个核函数，那么我们就可以计算出N+1个数据的协方差矩阵记作 $\Sigma_{N+1}$ 。并且将该矩阵分解为两部分

$C_{N+1} = \begin{pmatrix} C_N & k\\ k^T & c \end{pmatrix}$

我们已知分布 $p(t_{N+1}) = N(t_{N+1}|0, C_{N+1})" style="text-align:center;$ ，因为协方差矩阵是由核函数给出的，当我们给定一个核，协方差就可以根据x得到。这样根据高斯分布的性质很容易得到：

$p(x_{N+1}) = N(x_{N+1}|k^TC^{-1}_Nt, c-k^TC_N^{-1}k)$

用核函数的方法表示协方差矩阵是高斯过程的重要的一部分，它避免了直接建立x和y的关系，从而解决了那些不能用确定特征向量表示的问题，如文本长度。高斯过程可以用于回归和分类并且可以用来进行特征提取，如ARD。

1 Pattern recognition and machine learning （第六章）作者：Christopher M.Bishop

2 Machine learning a probabilistic perspective （第十四、十五章）作者:Kevin P. Murphy

转载本文请联系原作者获取授权，同时请注明本文来自李建扣科学网博客。
链接地址：https://blog.sciencenet.cn/blog-520608-718474.html

上一篇：线性分类器
下一篇：从GitHub创建库

收藏 IP: 124.16.137.*| 热度|

当前推荐数：1 推荐人： liweihao

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

李建扣

扫一扫，分享此博文

全部作者的其他最新博文

• 概率隐语义分析和奇异值分解

lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

高斯过程

当前推荐数：1 推荐人： liweihao

该博文允许注册用户评论请点击登录评论 (0 个评论)

李建扣

全部作者的其他最新博文

全部精选博文导读

相关博文

lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

高斯过程

当前推荐数：1 推荐人： liweihao

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李建扣

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)