zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

多重聚类最新进展和观点

已有 691 次阅读 2024-4-4 21:25 |个人分类:科普|系统分类:科普集锦

多重聚类最新进展和观点

聚类是一项基本的数据探索任务,旨在发现数据中隐藏的分组结构。聚类技术已经成功地应用于许多领域,包括社会网络分析、生物信息学、计算机视觉等。然而,众所周知,集群是在旁观者的眼中。由什么组成集群取决于应用程序的需要。例如,水果可以根据颜色、形状、起源或其他规则聚类。为了解决这些问题,人们开发了具有不同目标函数的聚类方法。一个相关的问题涉及聚类结果的质量。其中一个信念是,一个好的聚类应该捕获数据的稳定结构。然而,可能存在多个稳定的聚类结构。对于给定的数据集合,发现的聚类结构取决于所采用的聚类算法和输入参数。因此,多种可能结构的存在促进了多种聚类方法的发展。多聚类方法做了一个简单但合理的假设,即可能存在多种方法将一个数据集划分为簇。每次划分都会导致样本的不同分组,并且可以从不同的角度或假设对数据进行不同的解释。此外,与大数据的多样性不断增加,数据的结构也变得非常复杂。一个对象可以被不同的特征描述符描述,这些特征描述符构成了多个视图(multi-views)。例如,一组癌症样本可以用基因表达数据或甲基化数据来表示;电视片段可以通过视频和音频视图来描述。与基于单视图的聚类方法相比,多视图聚类可以融合不同视图之间的共享和互补信息,从而获得统一的聚类。然而,它们只提供了单一的聚类解决方案,可能无法全面揭示复杂多视图数据的不同聚类。因此,能够探索多个聚类以揭示数据的不同视图结构是很重要的。

值得一提的是,集成聚类的第一阶段也会产生多个基本聚类,但最终目标是将聚类组合成一个一致的聚类。相反,多重聚类的主要目标是探索不同的聚类,这些聚类可以描述数据的不同视角或假设,每个聚类都提供了一个独特的数据分组。多集群解决方案需要同时满足高质量和多样性的要求。虽然质量通常要求每个集群包含紧凑且分离良好的集群,但多样性要求聚类之间的不相似性。随着对多重聚类需求的增加,近十年来提出了许多方法。我们根据进行聚类的特征空间对它们进行分类。表1总结了四种类型的多重聚类方法,对于每个类别,方法按出版年份列出。每个聚类类别如图1所示。

1 多种聚类方法的分类(按年排序)

image.png

 

image.png

1 四种类型的多重聚类方法:(a)全空间,(b)子空间,(c)多视图数据,(d)多重共聚类

 

开创性的方法侧重于探索原始空间中的多个聚类(1(a))。几个连续的方法试图发现子空间中的多个聚类(1(b))。与传统子空间聚类方法在低维子空间中寻找聚类不同,基于子空间的多重聚类方法探索多个非冗余子空间及其对应的聚类。为了处理多视图数据,提出了多视图多重聚类(1(c)),利用多视图数据的特定和共同信息,探索高质量的不同聚类。最后一组方法执行共聚类(或双聚类),将样本和特征同时聚类(双向)。例如,对于基因表达数据,共聚类是有用的,其中用户对同时挖掘“样本”和“基因”组感兴趣。多重共聚(1(d))试图从相同的数据中发现非冗余的备选共聚。

在本文中,Yu等人对现有的多种聚类方法进行了系统和全面的综述。多聚类作为一个新兴领域,近年来发展迅速,最近一篇与该主题相关的综述论文发表于2017年。Muller等人介绍了几种多重聚类的实际应用场景,并总结了一些尚未解决的挑战。Aggarwal等人和Bailey等人回顾了生成备选聚类的算法,并讨论了多聚类、多视图聚类和子空间聚类之间的联系。(017年的一篇综述论文只讨论了基于子空间的多聚类方法。近年来出现了更先进的多聚类方法和新的多聚类任务。因此,有必要对该主题进行新的和最新的回顾,包括最近和正在进行的研究,并概述未来的方向,以进一步促进多重聚类的理论基础和实践方面。Yu等人的工作包括讨论当前的挑战和多集群的潜在应用。此外,收集和共享多个聚类资源(基准数据集和源代码),并开发一个工具包,以促进未来的研究和应用。 

全文关注三个方面:哪些技术用于发现多聚类;如何提高多聚类之间的多样性;以及如何提高聚类的质量。第2节提供了技术准备,并阐述了多重聚类的问题。第3节讨论了多种聚类算法,第4节讨论了子空间中多个聚类的理论和场景。第5节和第6节分别介绍了从多视图数据生成多个聚类和多个共聚类的最新算法。在第7节中,共享大多数多聚类方法和基准数据集的源代码存储库,并设计一个工具包来组装一些未来研究的代表性方法。第8节讨论了多集群的公开挑战和问题。第9节总结了综述。 

参考文献

[1] Yu G, Ren L, Wang J, et al. Multiple clusterings: Recent advances and perspectives. Computer Science Review, 2024, 52: 100621.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1428248.html

上一篇:数据库对理解lncRNA的贡献
下一篇:txtools:分析RNA修饰、结构和相互作用工具包
收藏 IP: 39.128.55.*| 热度|

1 农绍庄

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 20:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部