IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

相对邻域与剪枝策略优化的密度峰值聚类算法

已有 1725 次阅读 2023-5-12 14:46 |系统分类:博客资讯

引用本文

 

纪霞, 姚晟, 赵鹏. 相对邻域与剪枝策略优化的密度峰值聚类算法. 自动化学报, 2020, 46(3): 562575 doi: 10.16383/j.aas.c170612

Ji Xia, Yao Sheng, Zhao Peng. Relative neighborhood and pruning strategy optimized density peaks clustering algorithm. Acta Automatica Sinica, 2020, 46(3): 562575 doi: 10.16383/j.aas.c170612

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170612

 

关键词

 

聚类算法,密度峰值,相对邻域,剪枝策略 

 

摘要

 

针对Science发表的密度峰值聚类(Density peaks clustering, DPC)算法及其改进算法效率不高的缺陷, 提出一种相对邻域和剪枝策略优化的密度峰值聚类(Relative neighborhood and pruning strategy optimized DPC, RP-DPC)算法. DPC聚类算法主要有两个阶段: 聚类中心点的确定和非聚类中心点样本的类簇分配, 并且时间复杂度集中在第1个阶段, 因此RP-DPC算法针对该阶段做出改进研究. RP-DPC算法去掉了DPC算法预先计算距离矩阵的步骤, 首先利用相对距离将样本映射到相对邻域中, 再从相对邻域来计算各样本的密度, 从而缩小各样本距离计算及密度统计的范围; 然后在计算各样本的δ值时加入剪枝策略, 将大量被剪枝样本δ值的计算范围从样本集缩小至邻域以内, 极大地提高了算法的效率. 理论分析和在人工数据集及UCI数据集的对比实验均表明, DPC算法及其改进算法相比, RP-DPC算法在保证聚类质量的同时可以实现有效的时间性能提升.

 

文章导读

 

聚类分析简称聚类, 是根据样本间的相似性将样本集划分成合理类簇的过程, 聚类结果使得同一类簇中的样本具有较高的相似性, 而不同类簇之间的样本相似性较低[1-3]. 聚类是数据挖掘中的基本技术, 能够从数据中发现潜藏的知识和模式, 已广泛应用于社会网络分析、图像模式识别、智能商务等众多领域.大数据背景下, 数据的海量、多样和复杂使得具有自动理解、处理和概括数据的高效聚类算法研究迫在眉睫[4].

 

聚类算法大致可以分为划分式聚类方法[5-6]、层次聚类方法[7]、基于网格的聚类方法[8]和基于密度的聚类方法[9]. 其中, 基于密度的聚类方法可以发现任意形状的类簇, 对噪音数据不敏感, 且聚类时不需要事先知道类簇的个数, 是数据挖掘技术中广泛使用的一类方法.

 

快速搜索和发现样本密度峰值聚类(Density peaks clustering, DPC)算法是Rodriguez[10]近年在Science发表的一种新型聚类算法. 与其他聚类算法不同, DPC算法能自动确定类簇数和类簇中心点, 并进行高效的非中心点样本分配和离群点剔除, 因而吸引了众多学者对它进行深入研究. Wang[11]针对DPC算法对输入参数dc (密度计算的截断距离)敏感, 并且没有有效的设定准则的问题, 在采用核函数计算密度的情况下, 结合数据域的概念提出了一种自动计算dc的方法. 同时, 强调在大数据量情况下算法效率是DPC算法亟待研究的关键问题. Zhang[12]针对DPC算法不能解决一个类簇中多密度峰值或者无密度峰值的情况, 提出一种扩展的E_CFSFDP (Extended clustering by fast search and find of density peaks)算法, DPC算法聚类完成之后, 多执行一个子类的合并步骤. 该扩展方法在无密度峰值的数据集上取得了更好的实验效果, 但是时间开销巨大, 作者也将降低时间消耗作为下一步研究的重点. 谢娟英等[13]针对DPC算法中截断距离dc对聚类结果影响较大和样本分配策略可能会导致的多米诺骨牌效应的问题, 分别提出了K近邻优化和模糊加权K近邻优化的密度聚类方法KNN-DPC (K-nearest neighbors optimized density peaks clustering)FKNN-DPC (Fussy weighted KNN-DPC)[14], 并通过实验证明了改进方法的有效性. 但是并未给出关于引入参数K的有效设定方法, 同时由于额外K近邻的查找和复杂的类簇分配策略的引入, 使得KNN-DPCFKNN-DPC算法的时间复杂性都要远高于DPC, 极大地影响了算法的实用性. 因为DPC算法首先需要计算数据集中任意两个样本间的欧氏距离, 其时间复杂度为${\rm O}(m\times n^2)$(m为样本特征个数, n为数据集样本个数), 当处理海量高维数据时,大量的高维欧氏距离计算会带来高额的时间开销, 严重影响了算法的实用性, 所以对DPC算法的效率改进展开研究具有重要的应用价值. 巩树凤等[15]考虑了DPC算法效率不高的问题, 给出了分布式环境下的密度中心聚类算法SDDPC (Simple distributed density peaks clustering), 并且结合Voronoi图提出了优化的EDDPC (Efficient distributed density peaks clustering)算法, 提高了分布式环境下DPC算法的效率, 但并没有涉及DPC算法本身的研究与改进.

 

针对DPC算法和现有改进算法在效率方面的不足, 本文提出一种基于相对邻域和剪枝策略的密度峰值快速搜索聚类(Relative neighborhood and pruning strategy optimized density peaks clustering, RP-DPC)算法. RP-DPC的主要贡献包括: 1)改变原DPC算法的流程, 不再预先计算样本两两之间的距离, 改为在聚类过程中计算必要的样本间距离, 从而避免了大量冗余距离的计算; 2)借助双基准点映射的相对邻域来大致衡量样本之间的亲疏关系, 从而只需要对相对亲密的样本进行距离计算和密度统计; 3)在计算样本的斥群值(与更高密度样本之间距离的最小值[15])时加入剪枝策略, 极大地缩小被剪枝样本的斥群值查找范围, 从而加快了算法的效率; 4) 理论分析和在多个数据集上的对比实验均表明, RP-DPC算法具有和DPC算法同样的聚类效果, 时间性能却大大优于已有的DPC算法及其改进算法.

 1  算法流程图

 2  相对邻域映射模型

 3  6种算法在flame数据集的聚类结果

 

本文针对密度中心聚类算法DPC及其改进算法效率不高的问题, 基于相对邻域映射与剪枝策略提出了一种高效的密度中心聚类RP-DPC算法. DPC算法及其改进算法相比, RP-DPC通过双基准点的距离映射给出了样本间的相对位置, 缩小了样本密度统计的范围, 从而避免了很多冗余的距离计算. 在样本$ \delta $值计算中引入剪枝策略, 缩小样本的$ \delta $值计算范围, 有效地提高了算法的效率. 如何将邻域信息引入到非类簇中心点样本的类簇分配, 实现高效且高质量的聚类是下一步将研究的问题.

 

作者简介

 

纪霞

博士, 安徽大学计算机科学与技术学院讲师. 主要研究方向为数据挖掘与机器学习, 粒计算与粗糙集理论. 本文通信作者. E-mail: jixia1983@163.com

 

姚晟

博士, 安徽大学计算机科学与技术学院讲师. 主要研究方向为粗糙集理论与粒计算.E-mail: fishenyao@126.com

 

赵鹏

博士, 安徽大学计算机科学与技术学院副教授. 主要研究方向为机器学习, 智能信息处理.E-mail: zhaopeng_ad@163.com



https://blog.sciencenet.cn/blog-3291369-1387748.html

上一篇:会议程序册‖2023 IEEE/CAA Journal of Automatica Sinica Conference
下一篇:基于细节点投影的可撤销指纹模板生成算法
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-10 05:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部