|
$$ 多项分布(multinomial distribution)是二项分布的推广。设每次实验结果有k种, $X_1,X_2,\ldots,X_k$ ,一次实验中,每种结果发生的概率分别为 $p_1,p_2,\ldots,p_k$ 。进行n次实验, $X_1$ 总共发生 $x_1$ 次, $X_2$ 总共发生 $x_2$ 次, $\ldots$ , $X_k$ 总共发生 $x_k$ 次的概率为:
$f(X_1=x_1,X_2=x_2,\cdots,X_k=x_k)=\frac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}$
这就是多项分布的概率密度函数。有时间我们需要某个分布的显示概率密度函数,比如Bernoulli分布(0-1分布)的概率密度为:
$p(y)=p^y(1-p)^{1-y}$
有了这样的显示的概率密度,我们就可以很方便地推导logistic回归的似然函数了,并进一步推导出参数估计算法。同样地,我们希望有多项分布的显示概率密度函数,只要带入一个取值,便可以立即得到这个取值的概率,多项分布的显示概率密度函数为:
$p(x)=\prod_{i=1}^{k}p_i^{\mathbb{I}(x=X_i)}$
其中 $\mathbb{I}$ 是条件示性函数。
而k维狄利克雷分布(Dirichlet distribution)的概率密度如下:
$f(x_1,x_2,\cdots,x_k)=\frac{\Gamma(\sum_{i=1}^{k}\alpha_i)}{\Pi_{i=1}^{k}\Gamma(\alpha_i))} \prod_{i=1}^{k}x_i^{\alpha_i-1}$
其中, $0 第 $i$ 种取值的概率为 这两个分布与话题模型密切相关。比如话题R中词m的出现频率为 $\theta^m_R$ ,那么文档 $d_l$ 属于这个话题的概率可以建模为: $p(d_l|\theta_R)=\frac{(\sum_{m=1}^{V}c(m,d_l))!}{\prod_{m=1}^{V}c(m,d_l)!}\prod_{m=1}^{V}(\theta^m_R)^{c(m,d_l)}$ 其中, $c(m,d_l)$ 便是词m在文档 $d_l$ 中的出现频率。而至于每个话题中每个词的出现频率的先验分布又往往建模为Dirichlet分布。
https://blog.sciencenet.cn/blog-798994-789205.html
上一篇:Latex术语表的生成
下一篇:受限玻尔兹曼机(RBM,Restricted Boltzmann Machines)浅介
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-7 12:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社