xi123的个人博客分享 http://blog.sciencenet.cn/u/xi123

博文

机器学习之朴素贝叶斯

已有 1878 次阅读 2018-3-12 09:30 |个人分类:机器学习|系统分类:科研笔记


原理:对于给出的待分类项,求解在此项出现的条件下各个类别的概率,哪个最大就认为此项为哪个类别。

关键点:统计得到个类别下各个特征属性的条件概率。

重要假设:所有特征属性相互独立。


算法设计过程:

    确定特征属性;

    获取训练样本;

    对每个类别计算其出现概率;

    对每个特征计算其在每个类别下出现概率;

    给定样本计算其在每个类别下出现概率;

    选择概率最大类别作为该样本的类别;


问题1:当某特征在某类别下的条件概率为0时乘积为0;

解决:引入laplace校正,对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。

问题2:特征项太多,连乘结果太小,出现溢出情况而置0(下溢出问题);

解决:对连乘项取对数,变成连加


优点:

    在数据较少的情况下仍然有效,可以处理多类别问题;

    时间复杂度低

缺点:

    对于输入数据的准备方式较为敏感;

    特征独立性假设过于简单,有时可能是错误的;

适用数据类型:标称型数据




https://blog.sciencenet.cn/blog-3360373-1103452.html

上一篇:git使用
下一篇:机器学习之logistic
收藏 IP: 124.16.148.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 19:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部