IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

面向混合属性数据集的改进半监督FCM聚类方法

已有 1123 次阅读 2023-9-15 15:12 |系统分类:博客资讯

引用本文

 

李晓庆, 唐昊, 司加胜, 苗刚中. 面向混合属性数据集的改进半监督FCM聚类方法. 自动化学报, 2018, 44(12): 2259-2268. doi: 10.16383/j.aas.2018.c170510

LI Xiao-Qing, TANG Hao, SI Jia-Sheng, MIAO Gang-Zhong. An Improved Semi-supervised FCM Clustering Method for Mixed Data Sets. ACTA AUTOMATICA SINICA, 2018, 44(12): 2259-2268. doi: 10.16383/j.aas.2018.c170510

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170510

 

关键词

 

混合属性,相异度阈值,模糊均值聚类,Jaccard 

 

摘要

 

针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-meansFCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.

 

文章导读

 

聚类过程主要包括数据准备、特征选取与提取、相似度计算、聚类与评估等步骤, 经典的聚类算法包含K-meansK-modes、模糊均值聚类(Fuzzy C-means, FCM)算法、DBSCAN.目前仍有关于经典聚类算法的衍生算法的研究, 文献[1]以近邻反射传播聚类算法为基础, 提出一种基于同类约束的半监督近邻反射传播聚类方法.文献[2]提出K-近邻估计协同系数的协同模糊C均值算法.然而, 这些聚类算法的距离度量函数是仅针对单属性的数据集的距离运算.

 

随着互联网和物联网的快速发展和广泛应用, 各种数据的数量呈现指数式增长, 可获取的数据属性也呈现出多样化.许多学者开始致力于混合属性数据集聚类的相关研究. Huang [3]提出一种适用于混合属性数据聚类的K-prototypes算法, 对于分类属性部分, 该算法采用匹配差异度来描述数据点之间相异度.近年来, 陈晋音等[4]提出一种面向混合属性数据的增量式聚类算法.根据混合属性数据特征, 将特征向量集分为数值占优、分类占优和均衡型三类.文献[5]对不同情况的特征选取相应的距离度量方式进行分析, 通过预设参数, 发现数据密集区域, 确定核心点, 进而利用核心点确定密度相连的对象实现聚类.文献[6]提出一种基于密度的聚类中心自动确定的混合属性数据聚类算法.以上文献在处理混合属性数据的聚类时, 并未考虑无序属性数据的聚类问题.

 

文献[7]将混合属性数据分为有序属性和无序属性两个部分, 并构造出双重近邻无向图, 但未对混合属性数据聚类时距离度量做深入研究.文献[8]针对不同维度的向量间的无序属性向量集的距离度量展开研究.文献[9]针对机械系统故障诊断中对先验知识利用不足和在高维特征空间中诊断难的问题, 提出一种基于成对约束和通过约束准则构造核函数的半监督谱核聚类方法.本文基于文献[7-9]提出一种改进的半监督FCM算法, 首先对混合数据集的构成进行占优分析, 确定占优因子α, Jaccard距离做阈值改进, 并将所获改进Jaccard距离作为无序属性距离度量函数, 进而将所得混合属性距离度量函数应用于半监督FCM聚类算法, 得到改进的半监督FCM聚类算法.最后, 在滚动轴承的不同类型单故障及复合故障数据的特征集中进行算法对比验证.

 1  复合振动信号EMD分解

 2  有标签数据预聚类

 3  重聚类结果

 

本文提出一种基于改进Jaccard距离的混合属性距离度量方法, 并运用于半监督FCM聚类算法中, 得到改进的半监督FCM算法, 将在数值属性数据集的聚类方法扩展到了混合属性数据集的聚类问题中.通过对聚类算法的聚类精度这一指标值进行比较, 证明了改进的半监督FCM算法在聚类效果方面有了显著提升, 并得到如下结论.

1) 传统半监督FCM算法将样本不同特征量赋予相同的权重, 忽略了不同属性特征量本身的相异性, K-prototypes算法作为混合属性聚类算法, 对分类属性采用匹配差异度的距离度量方法, 但是和广义的Jaccard距离有相同的弊端, 即向量维度对计算结果有很大影响, 处理含无序属性的混合属性数据集时, 精度较低.改进半监督FCM聚类在处理含无序属性的混合属性数据集的聚类问题时, 采用欧氏距离与改进的Jaccard相结合的距离度量方式, 聚类精度明显优于传统的半监督FCM聚类和K-prototypes聚类.

2) 当聚类中心较多时(对应试验中故障类型较多), 对于改进半监督FCM, 相异度阈值可采用自适应阈值调整, 即对于无序属性部分自适应改变ε的值, 聚类精度得到提高.

 

半监督聚类的标记样本数据必须满足每个簇都至少有一个样本被标记出, 且初始样本数据对聚类结果影响较大.换而言之, 半监督聚类算法是建立在对标记样本完全信任的基础上的.因此, 如何提高算法对于不均衡数据集的聚类精度问题需要进一步研究.另外, 将轨迹坐标值作为无序属性分量, 并将本文提出算法与时间翘曲距离结合, 对轴心轨迹进行相似性判断并聚类, 也是下一步工作的重点.

 

作者简介

 

李晓庆  

合肥工业大学电气与自动化工程学院博士研究生.2013年获得合肥工业大学学士学位.主要研究方向为故障预测及健康管理.E-mail:lixiaoqing@mail.hfut.edu.cn

 

司加胜  

合肥工业大学智能制造技术研究院硕士研究生.2015年获得东北大学学士学位.主要研究方向为故障预测与健康管理.E-mail:jasenchn@hotmail.com

 

苗刚中  

合肥工业大学电气与自动化工程学院副教授.1991年获合肥工业大学工程硕士学位.主要研究方向为电工与电子技术, 物联网相关技术, 数据挖掘, 移动手机软件开发.E-mail:miaogzh@126.com

 

唐昊  

合肥工业大学电气与自动化工程学院教授.2002年获得中国科学技术大学博士学位.主要研究方向为离散事件动态系统, 随机决策与优化理论, 智能优化与控制方法.本文通信作者.E-mail:htang@hfut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1402735.html

上一篇:一种高斯渐进滤波框架下的目标跟踪方法
下一篇:会议邀请‖IEEE/CAA JAS会议:元控制与分布式控制
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-23 00:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部