博文

推断和学习

已有 3527 次阅读 2013-10-7 00:17 |个人分类:机器学习|系统分类:科研笔记

在机器学习里面经常遇到推断和学习两个词，下面对其进行区分。

图模型通常包括三种节点,观测变量、隐变量和参数, 分别用 $x_v, v_h, \theta$ 表示。习惯上把计算隐变量分布的过程称作推断,把对参数的后验估计称作学习。具体的,推断是指计算 $p(x_h|x_v, \theta)$ 的过程, 而学习是计算

$\hat \theta = \underset{\theta}{argmax} \ p(D|\theta)p(\theta)$

的过程。在上面的过程中,如果先验分布 $p(\theta)$ 是均匀分布,那么极大后验估计就退化成了极大似然估计。这样的区分是有一定道理的,通常情况下,参数的个数是相对较少的, 后验分布是一个尖顶分布,因此可以用点估计。隐变量本身就是随机变量, 因此需要得到一个分布,频率派很自然的这样的理解。

上面的说法在贝叶斯派里面不再成立,这是因为贝叶斯派认为参数也是随机变量,学习也可以看成是推断, 二者没有明显区别。不过我们仍然可以进行区分。参数和隐变量的主要区别在于它们的数量的增长情况不同。一般情况下,一个观测变量会有几个隐变量,隐变量的数量会随着训练集的增加而显著增加。与此相对的是参数的数量不随着训练集的变化而变化。从数量的角度考虑,由于参数的数量相对较少, 我们可以对其进行点估计,或者求后验分布。相反的,由于数量的过多的原因必须把隐变量积分掉以避免过拟合的出现。

最后,以上说法总是一般的情况,有时候参数和隐变量是相对的。例如在主题模型里面,文档级别参数θ在文档里面是参数,而在整个文档集里又可以看作隐变量。不过对 $\theta$ 的计算需要整个文档集，不能对其进行点估计，因此计算 $\theta$ 的过程看作是推断更符合一般的思维。

转载本文请联系原作者获取授权，同时请注明本文来自李建扣科学网博客。
链接地址：https://blog.sciencenet.cn/blog-520608-730655.html

上一篇：ubuntu安装ibus输入法
下一篇：马尔可夫链蒙特卡罗算法

收藏 IP: 124.16.137.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

李建扣

扫一扫，分享此博文

全部作者的其他最新博文

• 概率隐语义分析和奇异值分解

lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

推断和学习

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李建扣

全部作者的其他最新博文

全部精选博文导读

相关博文

lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

推断和学习

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李建扣

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)