swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

贝叶斯分类模型

已有 4051 次阅读 2013-4-14 16:33 |个人分类:信息检索|系统分类:科研笔记

朴素贝叶斯分类:

文档d属于c分类的概率计算方法如下:

其中:

1、  p(c)代表文档出现在c类中的先验概率。可用如下方法估计p(c)的值:

是训练集中c类文档的数目

是训练集文档总数

2、  d中的词条。d中词条的数目

3、  c类文档中出现的相对频率,可以用如下方法估计的值:

t在训练集合中c类文档出现的词频

是词汇表(即训练集中所有文档出现的词条)。但存在的问题是,若词条t未出现在c类文档中,则,会导致。因为一个词未出现在c类中而否定d属于c显然是不合理的。因此使用“加一平滑”的方法,或称拉普拉斯平滑

其中,即词汇表中词项个数。

4、  若要得知d文档究竟属于哪一分类,只要求的最大值即可。因此分类的算法如下:

5、  实际计算中的值可能非常小,会造成浮点数的溢出,因此常取对数,即:

6、  以上计算模型是多项式模型。另一个模型是贝努利模型,区别有两点:

a)        

b)        对于未出现的词项,多项式模型不作处理。




https://blog.sciencenet.cn/blog-795423-680090.html

上一篇:话题模型——隐含狄利克雷分布
下一篇:推荐系统评价模型
收藏 IP: 210.30.97.*| 热度|

1 罗春元

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 15:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部