|||
常见的分类算法(一):
决策树
决策树是自上而下生成的。每个决策或事件都可能引发两个或者多个事件,导致不同的结果。
在我的理解来看,决策树相当于一个二叉搜索树。对于一个已经建立好的二叉搜索树,如果想要寻找某个值,要从根节点开始,如果该值比当前结点的值大,走右边,如果小则走左边,直到查找到叶子结点。而决策树每个结点是一个属性,根据这个属性,决定该item是属于左边一类还是右边一类。
这样的分类方式造成非左即右的绝对化。对于某个属性,可能并不具有明显的区分度。不同的决策树算法的区别在于,对“差异”的定义,即根据某个属性值,是分到左边类还是右边类。
基于规则的分类器
基于规则的分类器根据测试记录所触发的规则来对记录进行分类。
这种分类器也比较容易理解。我认为它与决策树有类似之处。区别是决策树每个结点只有一个判断条件,从根节点到叶节点需要经过多个判断分支。而规则分类器是指满足某些规则(可以认为是属性取值的组合)即分为某类。
正如书中所说:规则集的表达能力几乎等价于决策树。这种分类方法也非常适于处理类分布不平衡的数据集。
最近邻分类器
K-最近邻是分类器算法中最通俗易懂的一种,计算测试样本到各训练样本的距离,取其中最小的K个,并根据这K个训练样本的标记进行投票得到测试样本的标记。
这是一种“消极学习方法”,即不通过训练集得到一个训练模型,而是通过找到与测试数据最近的K个训练数据,看它们属于哪个类,则该测试数据即为那个类。
算法的思路清晰简单,然而对于海量数据计算量过大,每个训练样本都有一个距离必须度量,耗费大量时间。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-17 18:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社