崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

CLUTO说明书节译

已有 15563 次阅读 2010-12-24 12:34 |个人分类:休闲|系统分类:论文交流| 软件, 聚类分析, 使用说明

一个聚类分析的软件,发现有些文本聚类的论文采用这个软件。
 
个人感觉它的优点是:1.对行和列同时聚类;2.提供对类别的描述;3.对聚类效果有评价比较的参数,如类内相似度,类间相似度等。
 
它的图形化版本就是gCLUTO。
 
 
概述
 
聚类算法把数据分成有意义或者有用的组,称之为类别(Clusters),从而达到使组内相似性最大,组间相似性最小的目标。所发现的这些类别可以用来解释基本数据分布的特征,由此为各种数据挖掘和分析技术提供基础。聚类技术可以用于对各种顾客人群按照他们购物方式来提取特征,对WWW上的文献进行分类,把具有相似功能的基因和蛋白质分为一组,从地震学的数据中把有地震倾向的空间区域分组。
 
CLUTO是个什么东西?
 
CLUTO是一个聚类低维和高维数据集的软件包,用于分析各种类别的特征。CLUTO提供三种聚类算法,既可以直接在聚类对象的特征空间上直接聚类,也可以按照对象的相似空间来聚类。这些算法为基于切分的、基于凝聚的和基于图形切分的。大多数CLUTO算法的关键之处在于它们把聚类问题当做了寻找特定聚类标准函数最大值或最小值的优化过程,这种函数既可以是整个聚类解空间全局的也可以是局部的。CLUTO总共提供7种标准函数,用于切分和凝聚聚类算法。文献6,5有其详细描述。已经证明大多数标准函数可以在高维度数据集,尤其是文本聚类中的数据集中,产生高质量的聚类解。除了这些标准函数,CLUTO还提供一些传统的局部标准(如最小距离、最大距离和UPGMA),用于凝聚聚类。另外,CLUTO提供了基于图形分割的聚类算法,特别适用于发现跨越基本特征空间中的不同维度的连接成片(相互接壤)的类别。基于切分的函数驱动的聚类算法的一个重要方面就是用于优化这个标准函数的方法。CLUTO利用随机递增优化算法,具有贪婪性质,计算要求低,显示出产生高质量聚类解。CLUTO的基于图形切分的聚类算法利用了衍生于METIS和hMETIS的图形和超图切分算法的高质量有效的多层图形切分算法。CLUTO还提供了分析获得的类别的工具,帮助理解分到各个类别中对象间的关系;还有对聚类结果进行可视化表达的工具。CLUTO可以辨认出最适合描述和/或区分各个类别的特征属性。通过这些特征属性集合可以更好地了解被分类到各个类别中的对象,对类别的内容提供总结。还有,CLUTO还提供可供观看类别之间、对象之间和属性之间关系的可视化功能。CLUTO的算法对于超大型的数据集合表现很理想,所谓大型是指对象的数目以及维度的数目上很大。这些对于切分聚类的CLUTO算法尤其成立。这些算法可以对有上千个维度的数万对象快速地聚类。更多的,由于大多数高维数据集都是很稀疏的,CLUTO直接很重视这种稀疏性质以及对内存的要求(与输入大小呈线性关系)。CLUTO的发布采用了独立程序(vcluster and scluster)来聚类和分析这些类别,同时也采用了程序库的形式,通过程序库应用程序可以直接采用CLUTO中的各种聚类和分析算法。
 
该软件可以免费下载:
 
http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview


https://blog.sciencenet.cn/blog-82196-396871.html

上一篇:看问题的角度很重要
下一篇:新年乐一下
收藏 IP: .*| 热度|

1 章成志

发表评论 评论 (7 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 16:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部