|
引用本文
张嘉旭, 王骏, 张春香, 林得富, 周塔, 王士同. 基于低秩约束的熵加权多视角模糊聚类算法. 自动化学报, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350
Zhang Jia-Xu, Wang Jun, Zhang Chun-Xiang, Lin De-Fu, Zhou Ta, Wang Shi-Tong. Entropy-weighting multi-view fuzzy C-means with low rank constraint. Acta Automatica Sinica, 2022, 48(7): 1760−1770 doi: 10.16383/j.aas.c190350
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190350
关键词
多视角模糊聚类,香农熵,低秩约束,核范数,交替方向乘子法
摘要
如何有效挖掘多视角数据内部的一致性以及差异性是构建多视角模糊聚类算法的两个重要问题. 本文在Co-FKM算法框架上, 提出了基于低秩约束的熵加权多视角模糊聚类算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint, LR-MVEWFCM). 一方面, 从视角之间的一致性出发, 引入核范数对多个视角之间的模糊隶属度矩阵进行低秩约束; 另一方面, 基于香农熵理论引入视角权重自适应调整策略, 使算法根据各视角的重要程度来处理视角间的差异性. 本文使用交替方向乘子法(Alternating direction method of multipliers, ADMM)进行目标函数的优化. 最后, 人工模拟数据集和UCI (University of California Irvine)数据集上进行的实验结果验证了该方法的有效性.
文章导读
随着多样化信息获取技术的发展, 人们可以从不同途径或不同角度来获取对象的特征数据, 即多视角数据. 多视角数据包含了同一对象不同角度的信息. 例如: 网页数据中既包含网页内容又包含网页链接信息; 视频内容中既包含视频信息又包含音频信息; 图像数据中既涉及颜色直方图特征、纹理特征等图像特征, 又涉及描述该图像内容的文本. 多视角学习能有效地对多视角数据进行融合, 避免了单视角数据数据信息单一的问题[1-4].
多视角模糊聚类是一种有效的无监督多视角学习方法[5-7]. 它通过在多视角聚类过程中引入各样本对不同类别的模糊隶属度来描述各视角下样本属于该类别的不确定性程度. 经典的工作有: 文献[8]以经典的单视角模糊C均值(Fuzzy C-means, FCM)算法作为基础模型, 利用不同视角间的互补信息确定协同聚类的准则, 提出了Co-FC (Collaborative fuzzy clustering)算法; 文献[9]参考文献[8]的协同思想提出Co-FKM (Multiview fuzzy clustering algorithm collaborative fuzzy K-means)算法, 引入双视角隶属度惩罚项, 构造了一种新型的无监督多视角协同学习方法; 文献[10]借鉴了Co-FKM和Co-FC所使用的双视角约束思想, 通过引入视角权重, 并采用集成策略来融合多视角的模糊隶属度矩阵, 提出了WV-Co-FCM (Weighted view colla-borative fuzzy C-means) 算法; 文献[11]通过最小化双视角下样本与聚类中心的欧氏距离来减小不同视角间的差异性, 基于K-means聚类框架提出了Co-K-means (Collaborative multi-view K-means clustering)算法; 在此基础上, 文献[12]提出了基于模糊划分的TW-Co-K-means (Two-level wei-ghted collaborative K-means for multi-view clustering)算法, 对Co-K-means算法中的双视角欧氏距离加入一致性权重, 获得了比Co-K-means更好的多视角聚类结果. 以上多视角聚类方法都基于成对视角来构造不同的正则化项来挖掘视角之间的一致性和差异性信息, 缺乏对多个视角的整体考虑.
一致性和差异性是设计多视角聚类算法需要考虑的两个重要原则[10-14]. 一致性是指在多视角聚类过程中, 各视角的聚类结果应该尽可能保持一致. 在设计多视角聚类算法时, 往往通过协同、集成等手段来构建全局划分矩阵, 从而得到最终的聚类结果[14-16]. 差异性是指多视角数据中的每个视角均反映了对象在不同方面的信息, 这些信息互为补充[10], 在设计多视角聚类算法时需要对这些信息进行充分融合. 综合考虑这两方面的因素, 本文拟提出新型的低秩约束熵加权多视角模糊聚类算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint, LR-MVEWFCM), 其主要创新点可以概括为以下3个方面:
1)在模糊聚类框架下提出了面向视角一致性的低秩约束准则. 已有的多视角模糊聚类算法大多基于成对视角之间的两两关系来构造正则化项, 忽视了多个视角的整体一致性信息. 本文在模糊聚类框架下从视角全局一致性出发引入低秩约束正则化项, 从而得到新型的低秩约束多视角模糊聚类算法.
2) 在模糊聚类框架下同时考虑多视角聚类的一致性和差异性, 在引入低秩约束的同时进一步使用面向视角差异性的多视角香农熵加权策略; 在迭代优化的过程中, 通过动态调节视角权重系数来突出具有更好分离性的视角的权重, 从而提高聚类性能.
3)在模糊聚类框架下首次使用交替方向乘子法(Alternating direction method of multipliers, ADMM)[15]对LR-MVEWFCM算法进行优化求解.
在本文中, 令N为样本总量, D为样本维度, K为视角数目, C为聚类数目, m为模糊指数. 设xj,k表示多视角场景中第j个样本第k个视角的特征向量,j=1,⋯,N, k=1,⋯,K; vi,k表示第k个视角下, 第i个聚类中心, i=1,⋯,C; Uk=[μij,k]表示第k个视角下的模糊隶属度矩阵, 其中μij,k是第k个视角下第j个样本属于第i个聚类中心的模糊隶属度, i=1,⋯,C, j=1,⋯,N.
本文第1节在相关工作中回顾已有的经典模糊C均值聚类算法FCM模型[17]和多视角模糊聚类Co-FKM模型[9]; 第2节将低秩理论与多视角香农熵理论相结合, 提出本文的新方法; 第3节基于模拟数据集和UCI (University of California Irvine)数据集验证本文算法的有效性, 并给出实验分析; 第4节给出实验结论.
图 1 Co-FKM算法处理多视角聚类任务工作流程
图 2 LR-MVEWFCM算法处理多视角聚类任务工作流程
本文从多视角聚类学习过程中的一致性和差异性两方面出发, 提出了基于低秩约束的熵加权多视角模糊聚类算法. 该算法采用低秩正则项来挖掘多视角数据之间的一致性关系, 并引入多视角自适应熵加权策略从而有效控制各视角之间的差异性,从而提高了算法的性能. 在模拟数据集和真实数据集上的实验均表明, 本文算法的聚类性能优于其他多视角聚类算法. 同时本文算法还具有迭代次数少、收敛速度快的优点, 具有良好的实用性. 由于本文采用经典的FCM框架, 使用欧氏距离来衡量数据对象之间的差异,这使得本文算法不适用于某些高维数据场景. 如何针对高维数据设计多视角聚类算法, 这也将是我们今后的研究重点.
作者简介
张嘉旭
江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: zhangjiaxu@hl.chinamobile.com
王骏
上海大学通信与信息工程学院副教授. 主要研究方向为人工智能, 模糊聚类和医学图像分类. 本文通信作者. E-mail: wangjun_sytu@hotmail.com
张春香
江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: 17851308360@163.com
林得富
江南大学数字媒体学院硕士研究生. 主要研究方向为人工智能和模式识别. E-mail: jiangnandaxu_2022@yeah.net
周塔
江苏科技大学电子信息学院副教授. 主要研究方向为人工智能, 模式识别与智能系统. E-mail: jkdzhout@just.edu.cn
王士同
江南大学数字媒体学院教授. 主要研究方向为人工智能和模式识别. E-mail: wxwangst@aliyun.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 03:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社