Linda2011的个人博客分享 http://blog.sciencenet.cn/u/Linda2011

博文

NMF with pairwise constraints

已有 4332 次阅读 2013-3-4 21:32 |系统分类:科研笔记

  1. 2008-SDM-Semi-supervised clustering via matrix factorization
   本文提出方法PMF,使用成对约束信息。对于满足ML约束的进行奖励,对那些违反CL约束的情况进行惩罚。其根本的思想同2005-ICML-Semi-supervised graph clustering a kernel approach类似,都是适约束的满足情况进行惩罚和奖励,不同的在于基本的目标函数不同,2005年的文章是从图聚类的三种算法出发的,而本文是基于NMF的。但是,实际上,Symmetric NMF 可以用作图聚类(2012-SDM-symmetric NMF for graph clustering)。
   本文的最终目标函数为:
   下面对式2.6进行解释。其实问题的初始目标如下式所示。可以清楚的看到其第一部分是典型的k-means的目标函数;第二个部分表示如果两个点属于ML并且聚类后他们类标签也一样。那么对他们奖励qij;第三个部分代表如果两个点是CL的,但是聚类结果显示他们的类标签相同,这时,需要对其进行惩罚,表现为在目标函数上加上qij。
    现在的问题是如何对上式进行求解。首先定义矩阵Q如下,然后定义矩阵G,其中Gic表示第i个点是否属于第c个簇,F是每个簇的中心。然后上式就可以很自然的转化为式2.6了。
    总的来说,这种加入约束的方法在半监督聚类中经常能看到类似的情况出现,很基本但也很实用,感觉就像是对一个问题的不同解释。另外对于约束的惩罚的形式也可以进行规范,为了防止倾斜划分的情况,可以再惩罚因子上除以每个簇的大小,这和NCut的处理方式是一样的。
2. 2011-ICDM-Text Clustering via Constrained Nonnegative Matrix Factorization
    在文本聚类中用矩阵来表示一个文本的集合,矩阵中的每一行代表一个词,每一列代表一个文本,矩阵中的每一个元素代表某 个词在某一文中的权重。文本聚类可以用NMF来表示,本文提出一种方法来解决当某些约束ML or CL存在时的问题。
    与其他文章不同,本文中对ML和CL分别进行处理。文章首先分析了方法PMF,在人工数据集上分析发现ML不能确保两个点被正确的分类,只能保证他们被分到了同一个类,但是不一定是同一个正确的类;而CL则可以很好的保证两个点不被分到同一个类中。因此,PMF中,对ML的处理时有缺陷的,本文着重于对这种缺陷进行改进。
    针对PMF中ML的处理方法缺点,我们希望对ML的处理能够实现两个目标,一是要提高两个点的指示向量的相似性,另一个是使他们远离不正确的簇中心。因而提出以下策略:
对于有ML约束的点要减小他们在转换后空间中的距离。有一点没想明白的是该式是如何满足第二个条件的。    
    对于CL本文采取和PMF同样的方法,最终的目标函数为:
    
感觉着公式(5)中的第二部分的参数设置的有点问题,我计算的应该是1的。

我自己针对这篇文章中提出的PMF方法的缺点的一点认识:ML代表的就是两个点要被分到同一个类中,目前所有的方法中,不论ML是如何进行表示的,只就ML来说,都是不能同时满足被分到同一个类并且正确的类中,大家都只是满足了第一个条件,这是ML约束自身存在的缺陷,和他的表示方法没有关系的。因此只使用ML是不够完善的,人们现在都是混合使用ML和Cl,用CL来表示类间的关系。






https://blog.sciencenet.cn/blog-795564-667144.html

上一篇:NMF with label constraints
下一篇:SymNMF with pairwise constraints
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 12:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部