数据,模型,决策分享 http://blog.sciencenet.cn/u/郭崇慧 自强不息,厚德载物

博文

聚类分析(Clustering Analysis)

已有 15445 次阅读 2009-3-4 16:25 |个人分类:科研笔记|系统分类:科研笔记| 机器学习, 数据挖掘, 数据分析, 聚类

(博文后面的参考文献[1, 2, 3]是聚类分析方面非常好的三篇综述)
 
聚类作为数据挖掘与统计分析的一个重要的研究领域,近年来倍受关注。从机器学习的角度看,聚类是一种无监督的机器学习方法,即事先对数据集的分布没有任何的了解,它是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。聚类方法作为一类非常重要的数据挖掘技术,其主要是依据样本间相似性的度量标准将数据集自动分成几个群组,且使同一个群组内的样本之间相似度尽量高,而属于不同群组的样本之间相似度尽量低的一种方法。聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的,聚类中的组也称为簇。一个聚类分析系统的输入是一组样本和一个度量样本间相似度(或距离)的标准,而输出则是簇集,即数据集的几个类,这些类构成一个分区或者分区结构。聚类分析的一个附加的结果是对每个类的综合描述,这种结果对于更进一步深入分析数据集的特性是尤其重要的。聚类方法尤其适合用来讨论样本间的相互关联从而对一个样本结构做一个初步的评价。数据挖掘中的聚类研究主要集中在针对海量数据的有效和实用的聚类方法上,聚类方法的可伸缩性、高维聚类分析、分类属性数据聚类、具有混合属性数据的聚类和非距离模糊聚类等问题是目前数据挖掘研究人员最为感兴趣的。
 
 
聚类已经被广泛应用于许多领域,例如生物学、药学、人类学、市场营销和经济学。聚类应用包括动植物分类、疾病分类、图像处理、模式识别和文本检索。例如,在商业方面,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的群组,并可以利用购买模式来描述这些具有不同特征的顾客组群。在生物学方面,聚类分析可以用来获取动物或植物所存在的层次结构,可根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域,此外,还可以帮助分类识别互联网上的文档以便进行信息发现。
 
 
聚类分析是一个富有挑战性的研究领域,以下就是对数据挖掘中聚类分析的一些典型要求:
 
(1) 可伸缩性(scalability)。实际应用要求聚类算法能够处理大数据集,且时间复杂度不能太高(最好是多项式时间),消耗的内存空间也有限。目前,为了将算法拓展到超大数据库(VLDB)领域,研究人员已经进行了许多有益的尝试,包括:增量式挖掘、可靠的采样、数据挤压(data squashing)等。其中,数据挤压技术首先通过扫描数据来获得数据的统计信息,然后在这些统计信息的基础上进行聚类分析。比如BIRCH 算法中使用CF树就是属于数据挤压技术。
 
(2) 能够处理不同类型的属性。现实中的数据对象己远远超出关系型数据的范畴,比如空间数据、多媒体数据、遗传学数据、时间序列数据、文本数据、万维网上的数据、以及目前逐渐兴起的数据流。这些数据对象的属性类型往往是由多种数据类型综合而成的。
 
(3) 能够发现任意形状的簇。
 
(4) 尽量减少用于决定输入参数的领域知识。
 
(5) 能够处理噪声数据及孤立点。
 
(6) 对输入数据记录的顺序不敏感。
 
(7) 高维性(high-dimensional)。一个数据集可能包含若干维。较高的维数给聚类分析带来两个问题:首先,不相关的属性削弱了数据汇聚的趋势,使得数据分布非常稀疏。尽管这种情况在低维空间中并不多见,但是随着维数的增加,不相关属性的出现概率及数量也会增加,最后导致数据空间中几乎不存在簇。其次,高维使得在低维中很有效的区分数据的标准在高维空间中失效了。如在高维空间中,数据点到最近邻点的距离与到其他点的距离没有多少分别,从而导致最近邻查询在高维空间中不稳定,此时若根据接近度来划分簇,结果是不可信的。
 
(8) 能够根据用户指定的约束条件进行聚类。
 
(9) 聚类结果具有可解释性和可用性。
 
上述的要求使目前聚类分析研究的热点集中在设计能够有效、高效地对大数据库进行聚类分析的方法上。相关的研究课题包括:聚类方法的可扩展性、复杂形状和复杂数据类型的聚类分析及其有效高效性、高维聚类技术,以及混合数值属性与符号属性数据库中的聚类分析方法等。
 
 
 
参考文献:
 
1.        Jain A K, Murty M N, Flynn P J. Data Clustering: A Review. ACM Computing Surveys, 1999, 31(3): 264-323.
 
2.        Xu Rui, Donald Wunsch Ⅱ, Survey of Clustering Algorithms, IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.
 
3.        Omran M G H, Engelbrecht A P, Salman A. An overview of clustering methods. Intelligent Data Analysis, 2007, 11, 583-605
 


https://blog.sciencenet.cn/blog-34250-218389.html

上一篇:复杂系统与复杂网络
下一篇:乌龟和鳖(甲鱼)的区别方法
收藏 IP: .*| 热度|

3 周春雷 张震 宋敦江

发表评论 评论 (9 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 00:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部