IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于低秩张量图学习的不完整多视角聚类

已有 1215 次阅读 2023-8-1 15:01 |系统分类:博客资讯

引用本文

 

文杰, 颜珂, 张正, 徐勇. 基于低秩张量图学习的不完整多视角聚类. 自动化学报, 2023, 49(7): 14331445 doi: 10.16383/j.aas.c200519

Wen Jie, Yan Ke, Zhang Zheng, Xu Yong. Low-rank tensor graph learning based incomplete multi-view clustering. Acta Automatica Sinica, 2023, 49(7): 14331445 doi: 10.16383/j.aas.c200519

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200519

 

关键词

 

多视角聚类,视角缺失,不完整多视角聚类,图学习 

 

摘要

 

传统多视角聚类都基于视角完备假设, 要求所有样本的视角信息完整, 不能处理存在部分视角缺失情形下的不完整多视角聚类任务. 为解决该问题, 提出一种基于低秩张量图学习的不完整多视角聚类方法. 为了恢复相似图中缺失视角所对应的样本关联信息, 该方法将低秩张量图约束和视角内在图保持约束融入到多视角谱聚类模型. 通过在一个统一模型中同时挖掘视角间的互补信息和视角内未缺失样例的关联信息, 所提出的方法能够得到表征样例邻接关系的完整相似图和视角间一致的最优聚类指示矩阵. 12种不完整多视角聚类方法进行实验对比, 实验结果表明所提出的方法在多种视角缺失率下的5个数据集上获得了最好的聚类性能.

 

文章导读

 

聚类是机器学习领域的重要研究方向之一, 旨在将一组无标签信息的数据划分为一些合理的类别[1]. 近年来, 便利的数据获取技术使得实际应用中待处理的数据呈现多样化的表现形式, 如多媒体数据存在音频、视频、图像和文字等异构信息; 医疗病例中含有多种医疗设备采集到的数据信息. 在机器学习领域, 由多种数据传感器或从不同源域、不同角度以及不同特征提取器所获取到的多样化数据统称为多视角数据. 多视角数据包含客观物体更完整的信息, 反映了客观物体的不同特性[2-3]. 因此, 若能有效利用多个视角的信息, 将获得比单视角方法更精确的聚类结果. 基于此, 许多研究人员投入到多视角聚类研究并提出诸如多视角K-means聚类[4]、多视角模糊聚类[5]、基于多视角矩阵分解的聚类[6]以及多视角一致图聚类[7]等方法. 虽然这些方法普遍获得比单视角聚类更好的性能, 但是这些方法都基于视角完备性假设, 要求待处理的多视角数据不能存在视角缺失情形[8]. 事实上, 视角缺失下的非完整多视角数据在近年来许多实际应用场景中十分普遍, 如在基于核磁共振、正电子成像技术和脑脊液数据信息的阿尔兹海默症诊断中, 许多人通常只含有其中一种或两种数据信息[9]. 在推荐系统中, 客户普遍存在信息不完整现象[10]. 此外, 在多媒体分析、文档分析或多语言文本分析任务中也存在视角缺失的情形[11-12]. 视角缺失不仅造成信息损失, 而且引起了如下3个问题: 1)破坏多视角数据的匹配结构; 2)加剧视角间信息的不平衡; 3)造成样本信息失衡. 这些因素使得不完整多视角聚类具有一定的挑战性.

 

虽然传统多视角聚类方法可通过删除含有缺失视角的样本或对缺失视角信息进行填充的方式来使得其模型得以执行, 但是这两种方式显然不合理[13-14]. 10年来学者们针对不完整多视角聚类问题进行了研究并提出了许多方法. 例如, Trivedi[15]提出了基于核相关性分析的不完整核矩阵恢复方法, 该方法的缺陷是只能处理两个视角的数据集, 而且要求其中一个视角完备. 随后基于矩阵分解的方法得以拓展到不完整多视角聚类, 其中比较典型的方法有: 局部多视角聚类 (Partial multi-view clustering, PMVC)[14]、多个不完整视角聚类 (Multiple incomplete-views clustering, MIC)[16]、双对齐不完整多视角聚类 (Doubly aligned incomplete multi-view clustering, DAIMC)[17]、在线不完整多视角聚类 (Online multi-view clustering with incomplete views, OMVC)[10]和单趟不完整多视角聚类 (One-pass incomplete multi-view clustering, OPIMC)[18]. PMVC建立了局部对齐不完整多视角矩阵分解模型, 利用含有完整视角的部分样本的对齐信息来约束模型以得到视角间的共同表征. 该方法的缺陷是仅适于处理部分样本含有完整视角且剩余样本仅含有其中一个视角的不完整多视角数据聚类任务. 不同于PMVC, MICDAIMCOMVCOPIMC等方法引入加权矩阵分解技术, 首先利用样本均值或零向量来填充缺失的视角以对齐多视角数据, 然后引入基于视角缺失先验位置信息的预定义对角矩阵来约束多视角共同表征学习模型, 进而实现任意视角缺失下的多视角聚类. 此外, 为了处理大规模数据的聚类问题, OMVCOPIMC还提出了区块分解优化方案. 总的来说, 这些方法在传统矩阵分解的多视角聚类模型的基础上, 通过引入视角缺失信息的先验矩阵约束, 让模型仅利用未缺失视角的信息来学习共同表征矩阵, 进而削弱视角缺失所造成的负面影响. 基于视角间的语义一致性, 统一嵌入对齐框架 (Unified embedding alignment framework, UEAF), 建立了一个缺失视角恢复和共同表征学习的联合模型[19]. 该方法的不足之处是要求各视角的特征维度高于数据类别数. 除上述方法外, 一些基于图学习和核学习的方法也被拓展来解决不完整多视角学习问题, 其中代表性的方法有: 基于自适应图学习的不完整多视角谱聚类 (Incomplete multi-view spectral clustering with adaptive graph learning, IMVSC_AGL)[20]和基于核补全的不完整多核K-means (Incomplete multiple kernel K-means with incomplete kernels, IMKKM-IK-MKC)[21]. 这两种方法将特征空间的视角缺失问题转换到流形空间的样本关联信息缺失问题, 利用未缺失样例间的相似度来获得数据的共同表征, 以实现任意视角缺失下的多视角聚类.

 

虽然上述方法为不完整多视角聚类问题提供了解决方案, 但是还存在以下局限: 1)未能挖掘和利用数据间最优的相似度信息, 如基于矩阵分解的方法普遍忽略了数据间的近邻结构信息; 2)现有方法普遍仅利用未缺失视角的特征或近邻结构信息, 忽略了缺失视角的信息, IMVSC_AGL这种基于图的方法忽略了与缺失视角相关联的样本相似度信息. 为了解决以上两个问题, 本文提出一种基于低秩张量图学习的不完整多视角聚类方法, 该方法不仅能够有效地利用视角间的信息和视角内的信息, 而且能挖掘不同视角的相似图间的高阶相关性, 实现缺失样例间的邻接元素补全, 进而得到更合理的聚类指示表征.

 

本文主要贡献简述如下: 1)针对不完整多视角聚类问题, 提出了一种灵活的基于图学习的聚类方法, 能够处理任意视角缺失下的聚类问题; 2)与现有方法相比, 所提出的方法建立了缺失图元素自适应补全和最优共同表征学习的联合框架, 能够得到数据间正确的邻接关系和最具可分性的聚类表征; 3)在多个数据集上的实验验证了所提出的方法在相似图补全和不完整多视角聚类上的优越性和有效性.

 1  基于低秩张量图学习的不完整多视角聚类框图

 2  多视角样本分布典型范例, 其中${\boldsymbol{S}}_{a,b}^{\left( v \right)}$表示ab两样本的第$v$个视角特征的相似度

 3  各方法在不同视角缺失率下的Handwritten、不同视角配对率下的Animal和不同视角配对率下的Reuters数据集上的聚类Purity (%)

 

针对视角缺失下的不完整多视角聚类难题, 本文提出了一种基于低秩张量图学习的方法. 该方法建立了自适应不完整图补全和最优聚类表征学习的统一框架模型, 通过挖掘视角间邻接结构的高阶相关性和视角间邻接信息的一致性, 得到了很好的相似图恢复效果. 在多种视角缺失率下的5个数据集上, 与多种先进的不完整多视角聚类方法进行对比, 实验结果表明, LASAR在这些数据集上普遍获得了最好的性能, 验证了其在不完整多视角聚类任务上的有效性.

 

作者简介

 

文杰

哈尔滨工业大学(深圳)助理教授. 主要研究方向为机器学习和模式识别. 本文通信作者. E-mail: jiewen_pr@126.com

 

颜珂

北京理工大学博士后. 主要研究方向为生物信息学和模式识别. E-mail: yanke401@163.com

 

张正

哈尔滨工业大学(深圳)助理教授. 主要研究方向为机器学习, 计算机视觉和多媒体分析. E-mail: darrenzz219@gmail.com

 

徐勇

哈尔滨工业大学(深圳)教授. 主要研究方向为机器学习, 模式识别, 生物特征和视频分析. E-mail: yongxu@ymail.com



https://blog.sciencenet.cn/blog-3291369-1397483.html

上一篇:基于分层控制策略的六轮滑移机器人横向稳定性控制
下一篇:基于元学习的双目深度估计在线适应算法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 13:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部