swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

话题模型——隐含狄利克雷分布

已有 7302 次阅读 2013-4-7 15:01 |个人分类:数据挖掘|系统分类:科研笔记| lda

处理文本时,很多论文都用到了Latent Dirichlet Allocation(LDA)模型。它是抽象topic的一种方法。现总结如下:


   LDA是比PLSA更“高级”的一种topic model。“高级”在哪里呢?--它是一个Bayes Hierarchy Model。
所谓Bayes Hierarchy Model说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。

   Topic model的一个通式为:

P(w|d) = sigma{ p(w|z)*p(z|d) }


其中云里雾里的topic,说白了就是一个一元语言模型,没有任何特殊的地方。对应上面的公式,就是 p(w|z)。

   而topic model,一般指的是两种分布:第一种就是topic~word的分布,就是p(w|z)。
   第二种是p(z|d),这个是doc~topic分布。
   有了这两种分布后,这个文档集合就有了一种立体化的感觉,闭上眼睛,仔细地想:

doc
|
----------------------------------------
|                       | ...                     |
topic_1            topic_2              topic_m


topic_i
|
----------------------------------------
|                       | ...                     |
word_1            word_2              word_n

一个三层的文档表示空间跃然纸上。
而最上层,就是人们常说的“降维”,其实是把文档投影到了“topic”空间。

doc~topic~word

这个Bayes Chain,就可以涵盖LDA的一个最基本的思想。

而PLSA其实也是这个链,那它和LDA有什么区别呢?

最大的区别就在于,doc~topic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超 参数,对doc~topic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的[对于doc~topic]就只有一个超参数。

那么加什么先验呢?
最基本的PLSA和LDA在刻画doc~topic和topic~word都利用了一个模型,就是multinomial model。为了计算的方便及先验的有意义,共轭先验是首选。multinomial distribution的共轭分布是Dirichlet distribution,很nice的一个分布。这也是Latent Dirichlet Allocation中Dirichlet的由来。

Dirichlet prior是一个巨牛的先验:
Bayes prior smoothing的先验也是Dirichlet,因为在一元语言模型中,也采用了multinomial来刻画。
而且在PLSA中引入的先验也是Dirichlet。那么它到底有什么好处呢?让大家这么对它着迷。计算简单性是大家都知道的,现在说一点它的奇妙的implict idea:
拿Bayes prior smoothing说:

P(w|d) = {c(w,d)+mu*p(w|c)} / {|d| + mu}

而最大似然的估计是
P_ml(w|d) = c(w,d) / |d|

平滑后的分母为c(w,d)+mu*p(w|c){原来为c(w,d)}
平滑后的分子为|d| + mu {原来为|d|}

所以奇妙的地方就在不同的地方:
好像文档多了mu个词,在这个mu新词中,有mu*p(w|c)这么多的w

这就是pseudo count的思想。理解了这个以后,PLSA加先验的推导,就不用再手推了。只要把这些多出来的先验词加上。一切就OK了。

所以大家请记住吧,这对巨牛的共轭先验multinomial & Dirichlet

那么如何推导LDA的那些参数呢?
大体有两种方法:一种是作者的varitional inference;另外一种是Gibbs Sampling。
我比较熟悉的是Gibbs Sampling。大家可以上网去搜GibbsLDA的源代码。

只要学会了Gibbs Sampling,那么这个代码很简单。
Gibbs Sampling的一个最大的优点就是很好理解。具体理解部分略去。

回到上面的话题:
在这个层级结构中:doc~topic~word,刚才说到LDA是对(doc~topic)加了一个先验。然后他是如何利用这个先验的呢?利用了exchangabiltity。所谓可交换性,就是conditional independent and identically distributed;注意与i.i.d的区别,“conditional”
对应到LDA中,是那个超参数给定后,才能得出i.i.d。。。需要自己看paper理解。

在我给定了doc~topic的先验后,对于一个文档,我取不同的topic的过程完全是独立的。
这也是层级模型的一个很优美的地方。

Worker
                          ...            
product_1     product_2      product_m

举个直白的例子,一旦当一个工人生产能力确定后,那么那么下面它所生产出来个各种产品都是conditional independent and identically distributed

可交换性其实是当我们信息不充足的时候的一个比较优美的假设,既然我们什么都不知道。那么我们就认为给定它的上级后,下面的东西都conditional independent and identically distributed

再举一个形象的例子,大家如果是懒人的话就会把袜子攒到一块洗,那么晾袜子就麻烦了,这么多袜子怎么办呢?于是商家很机警,他们发明了那种,头上一个钩,下面是一个大转盘的晾袜子的东西,这样袜子可以晾一圈。。。所以exchangabiltity指的是,如果袜子一样,那么一旦上面的钩子固定了,那么下面的袜子怎么转我们认为都没有关系的。
而条件独立则是一个更强的假设,整个转盘没有头上的钩子,但是确可以悬浮在概率空间中的任何一点,而认为整体形态没有改变。

好了,关于袜子话题告一段落。

还有一点需要注意的是,为了防止test阶段很多新词的出现,才引入了
topic~word的一个先验。大家可能想到了,也是Dirichlet分布。


学习LDA比较关键的是,必须学会看图,有了图才能让思维飘逸起来,无所不能。



https://blog.sciencenet.cn/blog-795423-677875.html

上一篇:Earthquake Shakes Twitter Users
下一篇:贝叶斯分类模型
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 03:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部