博文

一种基于多属性权重的分类数据子空间聚类算法

已有 4657 次阅读 2018-4-18 14:33 |系统分类:博客资讯

子空间聚类是指：根据数据相似性，将大规模数据集划分为若干类簇，簇内数据彼此相似，簇间数据彼此相异。不同的类簇存在于不同的相关属性子空间中，在全属性空间上无法形成有意义的簇集。

目前许多应用领域中的数据呈现高维性的特征，例如：序列数据、基因数据、零食交易数据等，针对高维数据的数据挖掘技术将面临诸多难题，伴随维度效应，产生了许多需要解决的问题。

高维数据聚类过程中面临的主要问题

子空间聚类是目前解决高维数据聚类问题的有效途径之一。根据加权方式的不同，子空间聚类算法可以分为软子空间聚类算法和硬子空间聚类算法两类，其中，硬子空间聚类主要是指对于各个数据簇，从全部特征集合中选取某些特征子集组成其相应子空间；软子空间聚类又称为特征加权聚类，是指在聚类过程中对数据簇的各个特征赋予一个特征加权系数，在聚类过程中得到不同数据簇对应数据特征的重要性。

分类数据是指数据属性值是分类型的数据，分类属性取值都是有限无序的，且不可比较大小，也无法进行数值运算。目前分类数据广泛存在于社会生活中的各个领域，由于分类数据的特殊性，传统适用于数值型数据的聚类算法显然无法处理分类数据的聚类问题。

分类数据子空间聚类的示例

面对高维分类数据的聚类需求，本文采用多属性频率权重以及多目标簇集质量聚类准则, 提出一种分类数据子空间聚类算法。该算法利用粗糙集理论中的等价类, 定义了一种多属性权重计算方法, 有效地提高了属性的聚类区分能力; 在多目标簇集质量函数的基础上, 采用层次凝聚策略, 迭代合并子簇, 有效地度量了各类尺度的聚类簇; 利用区间离散度, 解决了使用阈值删除噪音点所带来的参数问题;利用属性对簇的依附程度, 确定了聚类簇的属性相关子空间, 提高了聚类簇的可理解性。最后, 采用人工合成、UCI 和恒星光谱数据集, 实验验证了该聚类算法的可行性和有效性。

本文的主要贡献如下:

1) 定义了一种基于多属性频率的属性权重计算方法;

2) 给出了一种基于多目标簇集质量的聚类准则;

3) 提出了一种基于多属性权重的分类数据子空间聚类算法。

引用格式：庞宁, 张继福, 秦啸. 一种基于多属性权重的分类数据子空间聚类算法. 自动化学报, 2018, 44(3): 517-532.

链接：http://html.rhhz.net/ZDHXBZWB/html/2018-3-517.htm

作者简介：

庞宁，太原科技大学博士研究生, 副教授。2007 年获得山西大学计算机与信息技术学院硕士学位。主要研究方向为数据挖掘，并行计算。E-mail: pn529@126.com

张继福，太原科技大学计算机科学与技术学院教授。2005 年获得北京理工大学计算机学院博士学位。主要研究方向为数据挖掘, 并行与分布式计算, 人工智能。本文通信作者.E-mail: jifuzh@sina.com

秦啸，美国奥本大学计算机科学与软件工程系教授。2004 年获得美国内布拉斯加州林肯大学计算机学院博士学位。主要研究方向为并行与分布式系统, 存储系统, 容错和性能评估。E-mail: qinxiao@gmail.com

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1109615.html

上一篇：第15期自动化前沿热点论坛会议主题：类脑智能与智能自主控制
下一篇：考虑多源不确定信息的路网交通拥堵状态辨识方法

收藏 IP: 159.226.19.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种基于多属性权重的分类数据子空间聚类算法

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种基于多属性权重的分类数据子空间聚类算法

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)