博文

数据挖掘领域必须熟悉的十大经典算法其二——CART算法

已有 3361 次阅读 2019-1-17 15:28 |个人分类:数据挖掘算法介绍|系统分类:科研笔记| CART

国际权威学术组织IEEE International Conference on Data Mining评出了数据挖掘领域的十大经典算法。在真正进入数据挖掘算法的学习之前，这十个在该领域产生了深远影响的算法应该优先学习一下。

注：本文是对《大数据、数据挖掘与智慧运营综述》第一章的重新梳理，并加入了自己的理解。每个算法只是简单介绍，日后会详细研究。

2.CART决策树算法

CART决策树相比之下C 4.5改进之处就是增加了一个GINI系数作为决定分支变量的准则，由这个值来进行数据分隔，并建立一个二分式决策树，以决定最佳分支变量。（出自1984年 Breiman先生的论文）

GINI系数是衡量数据集合对于所有类别的不纯度，不纯度越小，证明该属性越适合作为分支属性。穷举所有属性作为分支变量所带来的不纯度，通过比较找出最佳分支属性就是这个算法的核心。

CART算法相比于C 4.5算法准确率更高，但是算法的效率只能说半斤八两。接下来我从近些年的论文中总结一下CART的改进方向。

1. 减少计算GINI系数的次数从而提高效率

例如：根据Fayyad边界判定定理、奥卡姆剃刀定律

这种方法的改进思想是在决定最佳分支变量时，结合Fayyad边界判定定理，检查相邻不同类别的边界点。Fayyad边表界判定定理明:最优分裂点总是处在不同类别的边界点处。所以只需要算出不同类边界处的GINI指数值就可以，不需要计算所有分割点的GINI指数值。因此所属类别越少，效率越高。在样本集只有两个类别的时候效率是最高。

实验结果出自《基于改进CART决策树建立水华预警模型》