1:聚类领域的K均值
K均值算法不难,直接给出算法的具体步骤:
(1):选择K个点作为初始质心;
(2):将每个点指派到最近的质心,形成K个簇;
(3):重新计算每个簇的质心;
(4):重复(2)、(3)直到质心不发生变化
2:初始质心的选择
这个过程通常是针对具体的问题有一些启发式的选取方法,或者大多数情况下采用随机选取的办法。因为前面说过 k-means 并不能保证全局最优,而是否能收敛到全局最优解其实和初值的选取有很大的关系,所以有时候我们会多次选取初值跑 k-means ,并取其中最好的一次结果。
3:指派到最近的质心
通常使用欧几里得距离就可以了,因为算法需要重复计算每个点与每个质心的相似度
4:目标函数
使用误差的平方和来作为度量聚类质量的目标函数(SSE)。
SSE = $SSE=\sum_{i=1}^{k}\sum_{x \in Ci} dist(ci,x)^{2}$
https://blog.sciencenet.cn/blog-796597-628676.html
上一篇:
算法学习(四):支持向量机(续)下一篇:
算法学习(六):最近邻分类器(KNN)