K-means与DBSCAN算法
K-means:
基于原型的算法。
—————————————————————————————
k-means算法:
—————————————————————————————
1:选择K个点作为初始质心
2:repeat
3: 将每个点指派到最近的质心,形成K个簇
4: 重新计算每个簇的质心
5:until 质心不发生变化
—————————————————————————————
优点:
简单,可用于各种数据
相当有效
缺点:
不能处理非球型簇、不同尺寸的簇。
离群点
K-means只限于有质心概念的数据
DBSCAN:
基于密度的算法。
首先介绍三个概念:
核心点:如果该点的给定邻域(Eps)内的点的个数超过给定的阈值(MinPts),则该点是核心点
边界点:边界点不是核心点,但它落在某个核心点的邻域内
噪声点:既非核心点也非边界点
—————————————————————————————
DBSCAN算法:
—————————————————————————————
1:将所有点标记为核心点,边界点和噪声点
2:删除噪声点
3:为距离在Eps之内的所有核心点之间赋予一条边
4:每组连通的核心点形成一个簇
5:将每个边界点指派到一个与之关联的核心点的簇中
—————————————————————————————
优点:
抗噪声、能处理任意形状的簇
缺点:
不能处理变密度的簇。高维数据无法处理(密度会趋于0)
https://blog.sciencenet.cn/blog-795423-646714.html
上一篇:
《数据挖掘导论》读书笔记(一)下一篇:
《数据挖掘导论》读书笔记(三)