||
相关向量机是一种稀疏概率模型,是一种核函数作为基函数且参数具有独立先验精度(方差)的特殊线性回归模型。相关向量机的出现弥补了支持向量机的一些不足,如提供了概率解释,不要求核函数必须是正定的,同时保留了支持向量机的一些优点,如它的解是稀疏的,运用核函数在低维空间处理高维空间的问题。
相关向量机是一种线性回归模型,只是比通常的模型加了一些限制,线性模型均值如下所示:
$y(x) = \sum_{n=1}^Nw_n\Phi(x_n) = w^T\Phi(x)$ (1)
在相关向量机里面, $\Phi(x)$ 表示的是一个由核函数组成的向量,它的第n个元素表示一个核函数 $k(x, x_m)$ 。用 $X$ 表示数据矩阵,它的每一行表示一个核向量 $\Phi(x)$ , t表示对应的目标值。那么似然函数如下所示:
$p(t|X,w,\beta) = \prod_{n=1}^NN(t_n|w^T\Phi(x_n), \beta^{-1})$
与一般线性模型不同的是,我们对每个 $w_n$ 都给出一个相应的超参数 $\alpha_n$ ,因此w的先验如下所示:
$p(w) = \prod_{n=1}^NN(w_n|0,\alpha^{-1})$
下面就是按照一般线性回归的思路得到w的后验概率,具体可参数prml第三章线性回归一章。
$p(w|t, X,\alpha,\beta) = N(w|m, \Sigma)$
其中 $m = \beta\Sigma\Phi t$ , $\Sigma = (diag(\alpha_n), \beta\Phi^T\Phi)^{-1}$
这里面 $\Phi^T\Phi$ 是一个很常见的形式,表示了数据相应的精度矩阵,而 $diag(\alpha)$ 表示先验部分的精度矩阵。
相关向量机的关键部分在于运用经验贝叶斯求解超参数 $\alpha$ 。边缘似然函数通过对w进行积分掉得到:
$p(t|\alpha) = \int p(t|w)p(w|\alpha)dw$
这里为了公式简洁,省略了其它相关参数。
积分结果很简洁,是一个高斯分布
$N(t|0, \beta^{-1}I + \Phi A^{-1}\Phi^T)$
其中A是对角线为 $\alpha$ 元素的对角矩阵
下面就是如何通过最大化边缘似然函数来求解 $\alpha$ 的问题了,即经验贝叶斯。这里面公式推导比较繁琐,只给出最后结果。
$\alpha_n = \frac{\gamma_n}{m_n^2}$ , $\beta = \frac{N-\sum\gamma_n}{||t-\Phi m||^2}$ , $\gamma_n = 1 - \alpha_n\Sigma_{nn}$
以上就是超参数的解,从上面可以看出,我们没有给出一个解析解,而是一种迭代形式,可以通过迭代的方式将超参数求出。
这里需要解释为什么它是稀疏的,因为通过上面的迭代过程,可以发现大部分超参数都趋向于一个非常的大数,可以认为是无穷大。从上面的式子中可以看出,参数 $w_n$ 与相应的超参数 $\alpha_n$ 是一种反相关的关系,因此如果超参数趋向无穷大,相应的参数趋向0,从而相应的基函数对整个数据的预测就没有作用。那些剩下的超参数非无穷大的点与预测数据直接相关,称作相关向量,这种机制就是自动相关决策机制(automatic relevance determination ,简记ARD)。
最后总结一下相关向量机,相关向量只是在一般的线性模型上加了一些限制,一个是用了核向量作为基函数,一个是用独立的超参数作为参数的精度,应用经验贝叶斯和自动相关决策机制,得到稀疏解。这里面涉及一些复杂计算,具体可以参考PRML第三章和第七章。
参考文献
1 Pattern recognition and machine learning (第三章、第七章)作者:Christopher M.Bishop
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 11:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社