lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

PRML笔记-无信息先验

已有 5292 次阅读 2013-4-30 16:21 |个人分类:机器学习|系统分类:科研笔记|关键词:机器学习,概率统计,无信息先验分布,同等无知| 机器学习, 概率统计, 无信息先验分布, 同等无知


PRML 笔记-117页

在概率推理过程中,我们经常需要先验概率分布。然而很多时候,这样的先验知识并不容易获取,在这种情况下,无信息先验被提出,那么什么是无信息先验呢? 顾名思义,无信息先验是在没有任何信息的情况下给

出的一个先验概率分布,常用 $p(\lambda) = C " style="font-family:宋体;font-size:14px;line-height:21px;$ (C是常数)表示。理解无信息先验并不困难,在没有任务信息的情况,认为各个点的概率或概率密度相等是合理的,我们没有理由让任意一点的概率大于其它点的概率。无信息先验试图给出一个对后验概率影响尽可能少的分布,一切让数据说话。如果问题到这里结束,似乎也可以,可是书里面举了两个例子,就不那么容易理解了。

第一个是具有如下形式的分布:

$p(x|\mu ) = f(x - \mu )" style="float:none;$

参数 $\mu$ 称为位置参数。直观上,在没有任何信息情况下,我们让 $p(\mu ) = C$ 是合理的。

下面我们详细说明为什么这样设位置参数是合理的。首先我们令 $\hat{x} = x + c,$ ,那么 $p(\hat{x}| \hat{\mu }) = f(\hat{x} - \hat{\mu })$ , 其中

$\hat{\mu } = \mu + c$ . 从这两个式子中,可以看到只要让位置参数保持和x同样的平移,那么该分布的形式就保持不变,

用概率的形式表达就是在对于给定区间[A, B]在新坐标系和旧坐标系下具有相同的概率,如下所示:

$\int_{A}^{B}p(\mu )d\mu = \int_{A-c}^{B-c}p(\mu ) = \int_{A}^{B}p(\mu - c)$


该等式对于任意区间[A, B] 成立,因此有

  $p(\mu - c) = p(\mu )$

从而有:

$p(\mu ) = C" style="text-align:left;$

除此之外,该书以高斯分布为例,比较了无信息先验与共轭高斯分布的关系。我们知道,给定方差的高斯分布的共轭分布仍然是高斯分布,如下:

$p(\mu |\mu _{0}, \delta _{0}) = N(\mu _{0}, \delta _{0})$

当方差趋于无穷的时候,我们得到无信息先验分布,并且可以推导出此时后验分布的均值组成中先验概率那部分已经消息了,后验分布完全由数据给出(极大似然那部分)。这也说明了,虽然先验是一个improper, 我们依然可以使用。

书中给出的第二个例子如下:


σ称为伸缩参数,为什么叫伸缩参数呢? 我们令,可以得到如下:


其中,因此当伸缩参数和x保持同步伸缩的时候,函数形式保持不变。我们选择一种先验分布来表现这种伸缩不变性。

理解的不好!!!!!!!!!!!!!!!




http://blog.sciencenet.cn/blog-520608-685394.html

上一篇:矩阵乘法的四种理解方式
下一篇:信息熵

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-24 10:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部