一:聚类的相关概念
1:聚类分析
根据在数据中发现的描述对象及其关系的信息,将数据对象分组。
目标:组内的对象相互之间相似度高,不同组对象之间的相似度低。
2:不同的聚类类型
(1):划分聚类
将数据对象集划分成不重叠的簇
层次聚类
允许嵌套,组织成一棵树
(2):互斥聚类
每个对象都指派到单一的簇
重叠聚类
一个对象可以同时从属于多个簇
模糊聚类
每个对象以一个0和1之间的隶属权值属于每个簇
3:不同的簇类型
(1):明显分离的
每个对象到同簇对象的距离近于不同簇的任意对象
(2):基于中心的簇
每个点到其簇中心的距离比到其他簇中心的距离更近
(3):基于近邻的簇
每个点到簇中至少一个点的距离比到不同簇中任意点的距离更近
(4):基于密度的簇
簇是被低密度区域分开的高密度区域
二:聚类算法
1:k-均值
2:凝聚层次聚类
从个体点作为簇开始,相继合并两个最接近的簇,直到只剩下一个簇
算法中的邻近性定义:
(1):MIN(单链)不同簇的两个最近点之间的邻近度
(2):MAX(全链)不同簇的两个最远点之间的邻近度
(3):组平均:取不同簇所有点对邻近度的均值
3:DBSCAN 一种基于密度的聚类算法
(1):根据基于中心的密度进行点分类
核心点:点在基于密度的簇内部
边界点:不是核心点,但它落在某个核心点的邻域内
噪声点:既非核心点又非边界点
(2):算法
4:混合模型聚类
https://blog.sciencenet.cn/blog-796597-653403.html
上一篇:
算法学习(八):关联分析下一篇:
算法学习(十):HITS