||
原理:对于给出的待分类项,求解在此项出现的条件下各个类别的概率,哪个最大就认为此项为哪个类别。
关键点:统计得到个类别下各个特征属性的条件概率。
重要假设:所有特征属性相互独立。
算法设计过程:
确定特征属性;
获取训练样本;
对每个类别计算其出现概率;
对每个特征计算其在每个类别下出现概率;
给定样本计算其在每个类别下出现概率;
选择概率最大类别作为该样本的类别;
问题1:当某特征在某类别下的条件概率为0时乘积为0;
解决:引入laplace校正,对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。
问题2:特征项太多,连乘结果太小,出现溢出情况而置0(下溢出问题);
解决:对连乘项取对数,变成连加
优点:
在数据较少的情况下仍然有效,可以处理多类别问题;
时间复杂度低
缺点:
对于输入数据的准备方式较为敏感;
特征独立性假设过于简单,有时可能是错误的;
适用数据类型:标称型数据
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-11 02:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社