||
朴素贝叶斯分类:
文档d属于c分类的概率计算方法如下:
其中:
1、 p(c)代表文档出现在c类中的先验概率。可用如下方法估计p(c)的值:
是训练集中c类文档的数目
是训练集文档总数
2、 是d中的词条。是d中词条的数目
3、 为在c类文档中出现的相对频率,可以用如下方法估计的值:
是t在训练集合中c类文档出现的词频
是词汇表(即训练集中所有文档出现的词条)。但存在的问题是,若词条t未出现在c类文档中,则,会导致。因为一个词未出现在c类中而否定d属于c显然是不合理的。因此使用“加一平滑”的方法,或称“拉普拉斯平滑”:
其中,即词汇表中词项个数。
4、 若要得知d文档究竟属于哪一分类,只要求的最大值即可。因此分类的算法如下:
5、 实际计算中的值可能非常小,会造成浮点数的溢出,因此常取对数,即:
6、 以上计算模型是多项式模型。另一个模型是贝努利模型,区别有两点:
a)
b) 对于未出现的词项,多项式模型不作处理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 15:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社