2009年KDD上的这篇Fast Approximate Spectral Clustering,提出了一种谱聚类算法的框架,并设计了该框架下的两个实例:基于k-means算法的KASP,和基于随机游走的RASP。并通过实验说明了该框架的优势。这篇文章和之前阅读的Spectral Grouping Using Nystrom Method有很强的关联,它指出了后者的缺点,并强调消除这些缺点。目前被引用次数为72。
首先减小矩阵的规模,将处理后的小规模矩阵作为聚类算法的输入,最后将聚类得到的结果,通过样本点和原数据集的映射关系,恢复为原数据集的聚类结果。这是许多大数据谱聚类方法的根基。而前段时间阅读的一篇文章,Spectral Clustering Using Nystrom Method,采用的也正是这种思想:用某种方法从原数据的相似度矩阵的列集合中抽样,通过样本集以及样本集和非样本集之间的相似度,估测原数据的相似度矩阵和特征向量。文章列举了这篇文章所介绍的方法的三个缺点:
1,抽样时,并不关系相似度矩阵包含的信息(描述太抽象,不理解)。
2,空间复杂度很大(除了涉及到样本集的计算,未采样的数据点的集合也参与了计算)
3,如果原数据集是不平衡(unbalanced,这个概念在 2007 IEEE A Tutorial on the spectral clustering 中提到,和指示向量是否相互正交化有关)的,可以用于计算的样本集将会很小,这将很大程度影响最后计算结果的准确度。(2008 Improved Nystrom low-rank approximation and error analysis 中提到,用k_means方法采样使得Nystrom low-rank approximation的误差达到接近最小化的程度,但确实也回避了原数据集不平衡的问题)
3,阅读上面提到的:2002 NIPS - Using the Nystrom method to speed up kernel machines 和 2005 ICML - Predictive low-rank decomposition for kernel methods,对Nystrom Approximation作一个小小的复习,并对Nystrom low-rank approximation作一个小结。