|||
前面介绍了主成分分析,概率主成分分析是对主成分分析在概率上的一种推广。 概率的引入,为主成分分析带来极大的好处。下面简单介绍概率主成分分析的 导出以及和主成分分析的关系。 在概率主成分分析里面,假设预测数据x是由一个隐变量z生成的,并且隐变量z以及条件概率p(x|z)均服从高斯分布。
$p(z) = N(z|0, I)$
$p(x|z) = N(x|Wz, \sigma^2I)
" style="text-align:center;$
根据高斯分布的性质,x的边缘分布p(x)也服从高斯分布,
$p(x) = N(x|0, WW^T + \sigma^2I)
" style="text-align:center;$
因为有了概率,我们可以从全新的角度去理解主成分分析了, 在该模型中,我们有两个参数W和σ,参数可
以用极大似然估计求出。 对数似然函数如下,
$ln p(X|W, \sigma) = -\frac{N}{2}(D\ln(2\pi) + \ln|C| + Tr(C^{-1}S))$
其中
$Tr(C^{-1}S)) = \sum_{n=1}^N Tr(C^{-1}u_nu_n^T)
= \sum_{n=1}^N Tr(u_n^TC^{-1}u_n)
= \sum_{n=1}^N u_n^TC^{-1}u_n$
上面用到了迹的循环不变性的性质。 我们忽略具体求解过程,分析一下它的解的形式,
$W_{ML} = U_M(L_M - \sigma^2I)^{1/2}R$
其中 $U_M$ 表示数据协方差矩阵最大的M个特征值所对应的特征 向量, $L_M$ 是一个对角矩阵,对角线上的元素对应相应的特征值 , R是一个任意一个正交矩阵,现在可以看作是 $I$ 。
$W_{ML} = U_M(L_M - \sigma^2I)^{1/2}$
对比标准主成分分析的映射关系,
$x = Wz = U_ML_M^{1/2}z$
可以看到二者只相差 $\sigma^2I$ ,标准主成分分析是概率主成分分析σ 为0时的特殊情况。并且我们看到新的伸缩矩阵 $L_0 = (L_M - \sigma^2I)^{1/2}$ 在每个方向上都比原矩阵减小了一个因子 $\sigma^2$ ,概率主成分分析因为噪音的存在,使得伸缩程度变小了。
$\sigma_{ML}^2 = \frac{1}{D-M}\sum_{m=M+1}^D \lambda_m$
在主成分分析中我们用M个主向量去近似的我们的数据,即把其余 非主成分向量的数据看作噪音丢掉。上面的式子正好表达了这个观点, 即方差等于其它非主成分空间的方差的平均值,也就是把噪音平均分配 到每个方向上。它可以直观给出观测数据在主成分空间上方差的组成成分,一方面来自噪音 $\sigma^2$ ,另一方面来自隐变量空间 $\sigma_0^2 = \lambda - \sigma^2$ 。 假设u是我们主成分空间的一个特征向量,那么该方向的方差可以表示为
$&u^TCu = u^T(W^TW + \sigma^2I)u
\\= (u^TU_M(L_M - \sigma^2)U_M^Tu) + \sigma^2
\\= (u\sum_{m+1}^M\lambda_mu_mu_m^Tu - \sigma^2) + \sigma^2
= (\lambda - \sigma^2) + \sigma^2
= \lambda$
最后一步正好表达了,主成分向量方差由隐空间的 $\lambda - \sigma^2$ 和噪音 $\sigma^2$ 两部分组成。
1. pattern recognition and machine learning Christopher M.Bishop
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 15:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社