swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

《数据挖掘导论》读书笔记(二)

已有 3634 次阅读 2012-12-26 21:31 |个人分类:数据挖掘|系统分类:科研笔记| 读书笔记, 数据挖掘

K-means与DBSCAN算法

K-means:
基于原型的算法。
—————————————————————————————
k-means算法:
—————————————————————————————
     1:选择K个点作为初始质心
     2:repeat
     3:     将每个点指派到最近的质心,形成K个簇
     4:     重新计算每个簇的质心
     5:until 质心不发生变化
—————————————————————————————
优点:
     简单,可用于各种数据
     相当有效
缺点:
     不能处理非球型簇、不同尺寸的簇。
     离群点
     K-means只限于有质心概念的数据



DBSCAN:
基于密度的算法。
首先介绍三个概念:
核心点:如果该点的给定邻域(Eps)内的点的个数超过给定的阈值(MinPts),则该点是核心点
边界点:边界点不是核心点,但它落在某个核心点的邻域内
噪声点:既非核心点也非边界点
—————————————————————————————
DBSCAN算法:
—————————————————————————————
     1:将所有点标记为核心点,边界点和噪声点
     2:删除噪声点
     3:为距离在Eps之内的所有核心点之间赋予一条边
     4:每组连通的核心点形成一个簇
     5:将每个边界点指派到一个与之关联的核心点的簇中
—————————————————————————————
优点:
     抗噪声、能处理任意形状的簇
缺点:
     不能处理变密度的簇。高维数据无法处理(密度会趋于0)


https://blog.sciencenet.cn/blog-795423-646714.html

上一篇:《数据挖掘导论》读书笔记(一)
下一篇:《数据挖掘导论》读书笔记(三)
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 20:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部