博文

《数据挖掘导论》读书笔记（三）

已有 4048 次阅读 2013-1-5 10:51 |个人分类:数据挖掘|系统分类:科研笔记| 读书笔记, 数据挖掘

常见的分类算法（一）:

决策树

决策树是自上而下生成的。每个决策或事件都可能引发两个或者多个事件，导致不同的结果。

在我的理解来看，决策树相当于一个二叉搜索树。对于一个已经建立好的二叉搜索树，如果想要寻找某个值，要从根节点开始，如果该值比当前结点的值大，走右边，如果小则走左边，直到查找到叶子结点。而决策树每个结点是一个属性，根据这个属性，决定该item是属于左边一类还是右边一类。

这样的分类方式造成非左即右的绝对化。对于某个属性，可能并不具有明显的区分度。不同的决策树算法的区别在于，对“差异”的定义，即根据某个属性值，是分到左边类还是右边类。

基于规则的分类器

基于规则的分类器根据测试记录所触发的规则来对记录进行分类。

这种分类器也比较容易理解。我认为它与决策树有类似之处。区别是决策树每个结点只有一个判断条件，从根节点到叶节点需要经过多个判断分支。而规则分类器是指满足某些规则（可以认为是属性取值的组合）即分为某类。

正如书中所说：规则集的表达能力几乎等价于决策树。这种分类方法也非常适于处理类分布不平衡的数据集。

最近邻分类器

K-最近邻是分类器算法中最通俗易懂的一种，计算测试样本到各训练样本的距离，取其中最小的K个，并根据这K个训练样本的标记进行投票得到测试样本的标记。

这是一种“消极学习方法”，即不通过训练集得到一个训练模型，而是通过找到与测试数据最近的K个训练数据，看它们属于哪个类，则该测试数据即为那个类。

算法的思路清晰简单，然而对于海量数据计算量过大，每个训练样本都有一个距离必须度量，耗费大量时间。

转载本文请联系原作者获取授权，同时请注明本文来自孙伟彬科学网博客。
链接地址：https://blog.sciencenet.cn/blog-795423-649719.html

上一篇：《数据挖掘导论》读书笔记（二）
下一篇：Information Credibility on Twitter in Emergency Situation

收藏 IP: 210.30.97.*| 热度|

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

扫一扫，分享此博文