minekirito的个人博客分享 http://blog.sciencenet.cn/u/minekirito

博文

数据挖掘领域必须熟悉的十大经典算法其一——C 4.5算法

已有 4615 次阅读 2018-12-16 19:18 |个人分类:数据挖掘算法介绍|系统分类:科研笔记| 数据挖掘, ID3

国际权威学术组织IEEE International Conference on Data Mining评出了数据挖掘领域的十大经典算法。在真正进入数据挖掘算法的学习之前,这十个在该领域产生了深远影响的算法应该优先学习一下。    

        注:本文是对《大数据、数据挖掘与智慧运营综述》第一章的重新梳理,并加入了自己的理解。每个算法只是简单介绍,日后会详细研究。

1.C 4.5算法

   C4.5算法是一种用在机器学习和数据挖掘领域的分类问题中使用的算法。他的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别位置的实体进行分类。

   C4.5算法是1993年在ID3算法的基础上提出的。ID3算法是一种贪心算法,用来构造决策树。而决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。它的优势是不需要任何领域知识和参数设置,非常适合探测性的知识发现。

  ID3算法的核心是“信息熵”,ID3算法计算每个属性的信息增益,每次划分都选取信息增益最高的属性作为划分标准,反复迭代,直到生成一个完美的决策树。

  C4.5算法继承了ID3算法的优点,并在以下方面进行了改进 :

  1. 使用信息增益率来选择属性,而不是ID3的信息增益。这解决了信息增益选择属性时会偏向选择取值多的属性的不足。

  2. C4.5算法在决策树构造的过程中会进行剪枝。

  3. 能够完成对连续属性的离散化处理

  4. 能够对不完整的数据进行处理

      虽然C 4.5算法的分类规则易于理解,准确率也较高。但在构造树的过程中,需要对数据进行多次顺序扫描和排序,导致其算法效率低下。并且对于位置的测试集,C 4.5算法未必能有很好的分类能力,泛化能力(指对新鲜样本的适应能力,能够学习到隐含在数据背后的规律的能力)弱,容易导致过拟合现象(指假设过度严格),所以剪枝的算法需要进一步改进。

       此外,C4.5只适合能驻留与内存的数据集,当训练集达到内存无法容纳的大小时,程序将无法运行。

       下一次将介绍同从ID3算法中衍生出的CART算法。



https://blog.sciencenet.cn/blog-3401624-1151870.html

上一篇:软件质量与软件测试相关问题(2)
下一篇:数据挖掘领域必须熟悉的十大经典算法其二——CART算法
收藏 IP: 110.16.106.*| 热度|

1 尉剑俊

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-10 13:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部