CLUTO是一个聚类低维和高维数据集的软件包,用于分析各种类别的特征。CLUTO提供三种聚类算法,既可以直接在聚类对象的特征空间上直接聚类,也可以按照对象的相似空间来聚类。这些算法为基于切分的、基于凝聚的和基于图形切分的。大多数CLUTO算法的关键之处在于它们把聚类问题当做了寻找特定聚类标准函数最大值或最小值的优化过程,这种函数既可以是整个聚类解空间全局的也可以是局部的。CLUTO总共提供7种标准函数,用于切分和凝聚聚类算法。文献6,5有其详细描述。已经证明大多数标准函数可以在高维度数据集,尤其是文本聚类中的数据集中,产生高质量的聚类解。除了这些标准函数,CLUTO还提供一些传统的局部标准(如最小距离、最大距离和UPGMA),用于凝聚聚类。另外,CLUTO提供了基于图形分割的聚类算法,特别适用于发现跨越基本特征空间中的不同维度的连接成片(相互接壤)的类别。基于切分的函数驱动的聚类算法的一个重要方面就是用于优化这个标准函数的方法。CLUTO利用随机递增优化算法,具有贪婪性质,计算要求低,显示出产生高质量聚类解。CLUTO的基于图形切分的聚类算法利用了衍生于METIS和hMETIS的图形和超图切分算法的高质量有效的多层图形切分算法。CLUTO还提供了分析获得的类别的工具,帮助理解分到各个类别中对象间的关系;还有对聚类结果进行可视化表达的工具。CLUTO可以辨认出最适合描述和/或区分各个类别的特征属性。通过这些特征属性集合可以更好地了解被分类到各个类别中的对象,对类别的内容提供总结。还有,CLUTO还提供可供观看类别之间、对象之间和属性之间关系的可视化功能。CLUTO的算法对于超大型的数据集合表现很理想,所谓大型是指对象的数目以及维度的数目上很大。这些对于切分聚类的CLUTO算法尤其成立。这些算法可以对有上千个维度的数万对象快速地聚类。更多的,由于大多数高维数据集都是很稀疏的,CLUTO直接很重视这种稀疏性质以及对内存的要求(与输入大小呈线性关系)。CLUTO的发布采用了独立程序(vcluster and scluster)来聚类和分析这些类别,同时也采用了程序库的形式,通过程序库应用程序可以直接采用CLUTO中的各种聚类和分析算法。