IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于加权锚点的多视图聚类算法

已有 399 次阅读 2024-7-27 17:02 |系统分类:博客资讯

引用本文

 

刘溯源, 王思为, 唐厂, 周思航, 王思齐, 刘新旺. 基于加权锚点的多视图聚类算法. 自动化学报, 2024, 50(6): 11601170 doi: 10.16383/j.aas.c220531

Liu Su-Yuan, Wang Si-Wei, Tang Chang, Zhou Si-Hang, Wang Si-Qi, Liu Xin-Wang. Multi-view clustering with weighted anchors. Acta Automatica Sinica, 2024, 50(6): 11601170 doi: 10.16383/j.aas.c220531

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220531

 

关键词

 

多视图聚类,大规模聚类,锚点,权重学习 

 

摘要

 

大规模多视图聚类旨在解决传统多视图聚类算法中计算速度慢、空间复杂度高, 以致无法扩展到大规模数据的问题. 其中, 基于锚点的多视图聚类方法通过使用整体数据集合的锚点集构建后者对于前者的重构矩阵, 利用重构矩阵进行聚类, 有效地降低了算法的时间和空间复杂度. 然而, 现有的方法忽视了锚点之间的差异, 均等地看待所有锚点, 导致聚类结果受到低质量锚点的限制. 为定位更具有判别性的锚点, 加强高质量锚点对聚类的影响, 提出一种基于加权锚点的大规模多视图聚类算法(Multi-view clustering with weighted anchors, MVC-WA). 通过引入自适应锚点加权机制, 所提方法在统一框架下确定锚点的权重, 进行锚图的构建. 同时, 为增加锚点的多样性, 根据锚点之间的相似度进一步调整锚点的权重. 9个基准数据集上与现有最先进的大规模多视图聚类算法的对比实验结果验证了所提方法的高效性与有效性.

 

文章导读

 

聚类旨在将数据根据相似性划分成簇[1]. 作为一种无监督学习方法, 聚类在数据挖掘、模式识别等领域有着广泛应用[2]. 在现实世界中, 信息有多种呈现模式. 来自不同渠道的信息就构成了多视图数据. 与传统的单视图聚类方法相比, 多视图聚类通过探索各个视图间一致与互补的信息进一步提升了聚类效果[3-4]. 例如, 无监督条件下物体的轨迹追踪往往通过对不同时间下的同一目标进行聚类实现. 单个传感器提取的信息可能会导致目标难以区分甚至误判, 而融合多个传感器的信息则可以大大提升目标追踪的准确率[5]. 

 

现有的多视图聚类方法可以划分为4, 协同训练、多核聚类、多视图图聚类和多视图子空间聚类[6]. 其中, 协同训练方法通过在不同视图间进行迭代学习来最大化视图间的一致性信息[7]. 多核聚类以不同的方式组合各个视图上的预定义核来得到统一的核, 再进一步执行聚类[8]. 多视图图聚类从获取数据结构信息的角度出发, 寻找融合了各个视图结构信息的图[9-11]. 上述3类方法从不同角度有效地处理了多视图数据, 但是它们难以解决高维数据聚类难的问题. 作为子空间聚类的扩展, 多视图子空间聚类方法提出从所有视图的低维子空间中学习统一的特征表示, 在高维多视图数据上取得了良好的效果[12-14]. 随着大数据时代的到来, 待处理的数据往往具有非常大的规模. 例如, 在社交网络分析中每个人都是一个节点, 而需要分析的节点往往数以亿计[15]. 然而现有的多视图子空间聚类算法耗时长、空间消耗大, 难以应用在大规模任务中[16-17]. 

 

为降低算法的复杂度, 一些相关研究提出将锚点应用在多视图子空间聚类中. 与传统算法构造所有样本点之间的相似度矩阵不同, 基于锚点的方法只学习锚点与样本点之间的关系, 大大降低了时间与空间消耗[18]. 现有基于锚点的方法根据其得到锚点的策略可以分为启发式采样和学习策略两类. 其中, 启发式采样策略由于可扩展性强、效果稳定, 近年来受到了广泛研究. 具体来说, 基于采样策略的方法通过K-means或随机采样等方式在构建相似度矩阵之前确定锚点, 根据固定的锚点进行后续的聚类过程[19]. 现有的方法忽视了采样得到的锚点质量层次不齐这一事实, 均等地看待所有锚点, 导致聚类效果受限. 此外, 不加选择地直接使用所有锚点没有充分考虑到锚点之间的相关性, 降低了具有不同代表性的锚点的利用率

 

针对上述问题, 本文提出一种基于加权锚点的多视图聚类算法(Multi-view clustering with weighted anchors, MVC-WA). 具体来说, 我们根据每个视图中选取的锚点的重要性与冗余性来学习权重, 使得更具代表性和独特性的锚点具有更高的权重. 本文的贡献可以总结如下

1) 引入自适应锚点加权机制, 区分不同重要性的锚点. 在统一的框架下进行锚图的构造与锚点权重的优化, 减少不相关锚点对后续聚类的影响, 加强可信锚点的权重

2) 考虑锚点的多样性, 根据锚点彼此之间的联系来判断锚点信息是否冗余, 降低相似锚点的权重, 增加独特锚点的权重, 有效增强锚点的表示能力

3) 设计两步迭代优化算法有效解决产生的优化问题, 在多个基准数据集上进行了实验. 实验结果证明了本文方法的有效性与效率

 1  4个数据集上学习到的锚点权重

 2  目标函数值随迭代次数增长的变化曲线

 3  参数调整对聚类性能的影响

 

在本文中, 提出了一种基于加权锚点的多视图聚类方法(MVC-CA). 与以往基于锚点的方法不同, 提出对锚点进行自适应加权, 在统一的框架下进行锚点权重的学习与锚图的构建. 此外, 考虑到锚点的多样性, 根据锚点之间的关系对锚点权重进行动态调整. 在基准数据集上与现有多视图聚类方法的对比实验验证了MVC-CA的高效性与有效性

 

作者简介

 

刘溯源

国防科技大学计算机学院硕士研究生. 主要研究方向为多视图学习. E-mail: suyuanliu@nudt.edu.cn

 

王思为

国防科技大学计算机学院博士研究生. 主要研究方向为无监督多视图学习, 大规模聚类和深度无监督学习. E-mail: wangsiwei13@nudt.edu.cn

 

唐厂

中国地质大学计算机学院教授. 主要研究方向为多视图学习. E-mail: tangchang@cug.edu.cn

 

周思航

国防科技大学智能科学学院讲师. 主要研究方向为机器学习, 医学图像分析. E-mail: sihangjoe@gmail.com

 

王思齐

国防科技大学计算机学院高性能计算国家重点实验室助理研究员. 主要研究方向为机器学习, 异常检测. 本文通信作者. E-mail: wangsiqi10c@gmail.com

 

刘新旺

国防科技大学计算机学院教授. 主要研究方向为核学习, 无监督特征学习. E-mail: xinwangliu@nudt.edu.cn



https://blog.sciencenet.cn/blog-3291369-1444047.html

上一篇:复杂无向图的同构判定方法
收藏 IP: 222.131.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-28 03:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部