博文

Bayes统计分析简述

已有 6376 次阅读 2014-5-30 10:24 |系统分类:科研笔记

下面是我在阅读[1],[2]和[3]中相关章节后，对Bayes统计分析做的一个很简单的概述，希望对读者有益。

这里所说的统计分析是对概率分布中参数进行推断，具体有三个任务：点估计，区间估计，假设检验。Bayes分析有三个最关键的输入：先验分布，样本信息，损失函数。

当我们需要对概率分布 $p_{\theta}(x)$ 中的参数 $\theta$ 进行统计推断时，Bayes方法认为参数 $\theta$ 是随机变量，且其存在一个先验分布 $\pi(\theta)$ 。试验时，先从先验分布中产生一个 $\theta$ ，然后再从 $p(x|\theta)$ 从产生一系列样本 $X=(x_1,x_2,\ldots,x_n)$ ，根据样本信息得到后验分布 $\pi(\theta|X)$ ，

$\pi(\theta|X)=\frac{\pi(\theta)\prod_{i=1}^{n}p(x_i|\theta)}{\int_{\Theta}\pi(\theta)\prod_{i=1}^{n}p(x_i|\theta)d\theta}\propto \pi(\theta)\prod_{i=1}^{n}p(x_i|\theta)$

最后基于后验分布进行各种统计推断。而统计推断结果的优劣则用损失函数进行度量，我们试图从后验分布出发做出有关参数 $\theta$ 损失最小的推断。

Bayess点估计中，设 $\widehat{\theta}$ 是参数 $\theta$ 的点估计，常见的损失函数有：

1.平方损失函数， $L(\widehat{\theta},\theta)=(\widehat{\theta}-\theta)^2$ ，此时后验分布的均值 $E(\theta|X)$ 是损失最小的估计。

2.绝对损失函数， $L(\widehat{\theta},\theta)=|\widehat{\theta}-\theta|$ ，此时后验分布的中位数 $Med(\theta|X)$ 是损失最小的估计。

3.0-1损失函数，

$L(\widehat{\theta},\theta)=\left\{ \begin{aligned} 0,&|\widehat{\theta}-\theta|\leq \epsilon\\ 1,&|\widehat{\theta}-\theta|> \epsilon\\ \end{aligned} \right.$

，此时后验分布的最大似然 $\mathop{\arg\max}_{\theta}\pi(\theta|X)$ 是损失最小的估计。

Bayes区间估计就是求得一个区间 $(\theta_L,\theta_U)$ ，使得

$p(\theta_L\leq \theta \leq \theta_U |X)=\int_{\theta_L}^{\theta_U}\pi(\theta|X) d\theta=1-\alpha$

可以采用如下损失函数：

$L(\theta_L,\theta_U)=\theta_U-\theta_L$

使上述损失函数最小，也就是使区间的长度最小。区间长度最小的区间估计称为HPD区间。

Bayes假设检验，即根据后验信息确定下述不相容假设中哪一个为真:

$H_0:\theta \in \Theta_0 \leftrightarrow H_1:\theta \in \Theta_1$

其中， $\Theta_1 \bigcap \Theta_0=\emptyset$ 。可采用如下损失函数：

$L(H_0)=\left\{ \begin{aligned} 1,&H_1 \qaud \text{holds}\\ 0,&H_0 \qaud \text{holds}\\ \end{aligned} \right. , L(H_1)=\left\{ \begin{aligned} 1,&H_0\qaud \text{holds}\\ 0,&H_1\qaud \text{holds}\\ \end{aligned} \right$

Bayes统计分析中还有两个重要的概念，共轭分布和超参数。如果后验分布和先验分布同属一个分布族 $\mathcal{F}_1$ ，那么称 $p(x|\theta)$ 所在的分布族 $\mathcal{F}_2$ 与分布族 $\mathcal{F}_1$ 相对于参数 $\theta$ 共轭。共轭先验分布可以使得后验分布的计算变得简单，常用的共轭分布已经制表。先验分布的参数称为超参数，超参数可以通过矩估计等方法进行估计，然而当超参数难以确定时，可以再给出超参数的一个先验分布，不妨称之为超先验，如此，我们得到一个多层的先验分布。

参考文献
[1] 茆诗松，王静龙，濮晓龙. 高等数理统计. 高等教育出版社, 2004.
[2] 梅长林，范金城. 数据分析方法. 高等教育出版社, 2007.
[3] 吴福朝. 计算机视觉中的数学方法. 科学出版社, 2008.

转载本文请联系原作者获取授权，同时请注明本文来自吴建军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-798994-798900.html

上一篇：pLSI( Probabilistic latent semantic indexing)简述
下一篇：话题模型之LDA(Latent Dirichlet Allocation)介绍

收藏 IP: 222.195.92.*| 热度|

当前推荐数：1 推荐人：李天成

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

吴建军

扫一扫，分享此博文

wjianjun的个人博客分享 http://blog.sciencenet.cn/u/wjianjun

博文

Bayes统计分析简述

当前推荐数：1 推荐人：李天成

该博文允许注册用户评论请点击登录评论 (0 个评论)

吴建军

全部作者的其他最新博文

全部精选博文导读

相关博文

wjianjun的个人博客分享 http://blog.sciencenet.cn/u/wjianjun

博文

Bayes统计分析简述

当前推荐数：1 推荐人： 李天成

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

吴建军

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：李天成

该博文允许注册用户评论请点击登录评论 (0 个评论)