swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

《数据挖掘导论》读书笔记(三)

已有 4048 次阅读 2013-1-5 10:51 |个人分类:数据挖掘|系统分类:科研笔记| 读书笔记, 数据挖掘

常见的分类算法(一):

决策树

决策树是自上而下生成的。每个决策或事件都可能引发两个或者多个事件,导致不同的结果。

在我的理解来看,决策树相当于一个二叉搜索树。对于一个已经建立好的二叉搜索树,如果想要寻找某个值,要从根节点开始,如果该值比当前结点的值大,走右边,如果小则走左边,直到查找到叶子结点。而决策树每个结点是一个属性,根据这个属性,决定该item是属于左边一类还是右边一类。

 

这样的分类方式造成非左即右的绝对化。对于某个属性,可能并不具有明显的区分度。不同的决策树算法的区别在于,对“差异”的定义,即根据某个属性值,是分到左边类还是右边类。


基于规则的分类器

    基于规则的分类器根据测试记录所触发的规则来对记录进行分类。

这种分类器也比较容易理解。我认为它与决策树有类似之处。区别是决策树每个结点只有一个判断条件,从根节点到叶节点需要经过多个判断分支。而规则分类器是指满足某些规则(可以认为是属性取值的组合)即分为某类。

正如书中所说:规则集的表达能力几乎等价于决策树。这种分类方法也非常适于处理类分布不平衡的数据集。

最近邻分类器

K-最近邻是分类器算法中最通俗易懂的一种,计算测试样本到各训练样本的距离,取其中最小的K个,并根据这K个训练样本的标记进行投票得到测试样本的标记。

这是一种“消极学习方法”,即不通过训练集得到一个训练模型,而是通过找到与测试数据最近的K个训练数据,看它们属于哪个类,则该测试数据即为那个类。

算法的思路清晰简单,然而对于海量数据计算量过大,每个训练样本都有一个距离必须度量,耗费大量时间。



https://blog.sciencenet.cn/blog-795423-649719.html

上一篇:《数据挖掘导论》读书笔记(二)
下一篇:Information Credibility on Twitter in Emergency Situation
收藏 IP: 210.30.97.*| 热度|

1 杨华磊

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 18:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部