lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

极大似然估计和贝叶斯估计

已有 19178 次阅读 2013-6-27 14:57 |个人分类:机器学习|系统分类:科研笔记| 极大似然估计, 贝叶斯估计, 最大后验概率

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:

$\theta _{MLE} = argmax_{\theta }p(D|\theta)$

D表示训练数据集, $\theta " style="text-align:center;$ 是模型参数

相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值,如下所示:

$E[y|x,D] = \int p(y|x,\theta)p(\theta |D)d\theta$

其中x表示输入,y表示输出,D表示训练数据集, $\theta$ 是模型参数


  该公式称为全贝叶斯预测。现在的问题是如何求 $p(\theta |D)$ (后验概率),根据贝叶斯公式我们有:

$p(\theta|D) = \frac{p(D|\theta )p(\theta )}{p(D)} = \frac{p(D|\theta )p(\theta )}{\int p(D|\theta )p(\theta )d\theta }$

  可惜的是,上面的后验概率通常是很难计算的,因为要对所有的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种情况下,我们采用了一种近似的方法求后验概率,这就是最大后验概率。

$\theta _{MAP} = argmax_{\theta }p(D|\theta )p(\theta )$

  最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。

  从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。


参考资料:

 [1] Machine learning: a probabilistic perspective 第三章

 [2]Andrew Ng讲义,Regularization and model selection

    http://v.163.com/special/opencourse/machinelearning.html



http://blog.sciencenet.cn/blog-520608-703219.html

上一篇:主成分分析和核函数
下一篇:朴素贝叶斯分类器

4 蒋迅 苏金亚 林志恒 李天成

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-9-25 05:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部