||
多重聚类最新进展和观点
聚类是一项基本的数据探索任务,旨在发现数据中隐藏的分组结构。聚类技术已经成功地应用于许多领域,包括社会网络分析、生物信息学、计算机视觉等。然而,众所周知,集群是在旁观者的眼中。由什么组成集群取决于应用程序的需要。例如,水果可以根据颜色、形状、起源或其他规则聚类。为了解决这些问题,人们开发了具有不同目标函数的聚类方法。一个相关的问题涉及聚类结果的质量。其中一个信念是,一个好的聚类应该捕获数据的“稳定”结构。然而,可能存在多个稳定的聚类结构。对于给定的数据集合,发现的聚类结构取决于所采用的聚类算法和输入参数。因此,多种可能结构的存在促进了多种聚类方法的发展。多聚类方法做了一个简单但合理的假设,即可能存在多种方法将一个数据集划分为簇。每次划分都会导致样本的不同分组,并且可以从不同的角度或假设对数据进行不同的解释。此外,与大数据的多样性不断增加,数据的结构也变得非常复杂。一个对象可以被不同的特征描述符描述,这些特征描述符构成了多个视图(multi-views)。例如,一组癌症样本可以用基因表达数据或甲基化数据来表示;电视片段可以通过视频和音频视图来描述。与基于单视图的聚类方法相比,多视图聚类可以融合不同视图之间的共享和互补信息,从而获得统一的聚类。然而,它们只提供了单一的聚类解决方案,可能无法全面揭示复杂多视图数据的不同聚类。因此,能够探索多个聚类以揭示数据的不同视图结构是很重要的。
值得一提的是,集成聚类的第一阶段也会产生多个基本聚类,但最终目标是将聚类组合成一个一致的聚类。相反,多重聚类的主要目标是探索不同的聚类,这些聚类可以描述数据的不同视角或假设,每个聚类都提供了一个独特的数据分组。多集群解决方案需要同时满足高质量和多样性的要求。虽然质量通常要求每个集群包含紧凑且分离良好的集群,但多样性要求聚类之间的不相似性。随着对多重聚类需求的增加,近十年来提出了许多方法。我们根据进行聚类的特征空间对它们进行分类。表1总结了四种类型的多重聚类方法,对于每个类别,方法按出版年份列出。每个聚类类别如图1所示。
表1 多种聚类方法的分类(按年排序)
图1 四种类型的多重聚类方法:(a)全空间,(b)子空间,(c)多视图数据,(d)多重共聚类
开创性的方法侧重于探索原始空间中的多个聚类(图1(a))。几个连续的方法试图发现子空间中的多个聚类(图1(b))。与传统子空间聚类方法在低维子空间中寻找聚类不同,基于子空间的多重聚类方法探索多个非冗余子空间及其对应的聚类。为了处理多视图数据,提出了多视图多重聚类(图1(c)),利用多视图数据的特定和共同信息,探索高质量的不同聚类。最后一组方法执行共聚类(或双聚类),将样本和特征同时聚类(双向)。例如,对于基因表达数据,共聚类是有用的,其中用户对同时挖掘“样本”和“基因”组感兴趣。多重共聚(图1(d))试图从相同的数据中发现非冗余的备选共聚。
在本文中,Yu等人对现有的多种聚类方法进行了系统和全面的综述。多聚类作为一个新兴领域,近年来发展迅速,最近一篇与该主题相关的综述论文发表于2017年。Muller等人介绍了几种多重聚类的实际应用场景,并总结了一些尚未解决的挑战。Aggarwal等人和Bailey等人回顾了生成备选聚类的算法,并讨论了多聚类、多视图聚类和子空间聚类之间的联系。(017年的一篇综述论文只讨论了基于子空间的多聚类方法。近年来出现了更先进的多聚类方法和新的多聚类任务。因此,有必要对该主题进行新的和最新的回顾,包括最近和正在进行的研究,并概述未来的方向,以进一步促进多重聚类的理论基础和实践方面。Yu等人的工作包括讨论当前的挑战和多集群的潜在应用。此外,收集和共享多个聚类资源(基准数据集和源代码),并开发一个工具包,以促进未来的研究和应用。
全文关注三个方面:哪些技术用于发现多聚类;如何提高多聚类之间的多样性;以及如何提高聚类的质量。第2节提供了技术准备,并阐述了多重聚类的问题。第3节讨论了多种聚类算法,第4节讨论了子空间中多个聚类的理论和场景。第5节和第6节分别介绍了从多视图数据生成多个聚类和多个共聚类的最新算法。在第7节中,共享大多数多聚类方法和基准数据集的源代码存储库,并设计一个工具包来组装一些未来研究的代表性方法。第8节讨论了多集群的公开挑战和问题。第9节总结了综述。
参考文献
[1] Yu G, Ren L, Wang J, et al. Multiple clusterings: Recent advances and perspectives. Computer Science Review, 2024, 52: 100621.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社