cjpnudt的个人博客分享 http://blog.sciencenet.cn/u/cjpnudt

博文

[读论文]--KDD15-056 将世界知识通过异构信息网络综合到文档聚类

已有 2182 次阅读 2016-5-13 21:46 |系统分类:科研笔记

Incorporating  World Knowledge to Document Clustering via Heterogeneous Information Networks

将世界知识通过异构信息网络综合到文档聚类中去

One of the key  obstacles in making learning protocols realistic in applications is the need  to supervise them, a costly process that often requires hiring domain  experts. We consider the framework to use the world knowledge as indirect  supervision.World knowledge is general-purpose knowledge, which is not  designed for any specific domain. Then the key challenges are how to adapt  the world knowledge to domains and how to represent it for learning. In this  paper, we provide an example of using world knowledge for domain dependent  document clustering. We provide three ways to specify the world knowledge to  domains by resolving the ambiguity of the entities and their types, and  represent the data with world knowledge as a heterogeneous information  network. Then we propose a clustering algorithm that can cluster multiple  types and incorporate the sub-type information as constraints. In the  experiments, we use two existing knowledge bases as our sources of world  knowledge. One is Freebase, which is collaboratively collected knowledge  about entities and their organizations. The other is YAGO2, a knowledge base  automatically extracted fromWikipedia

and maps  knowledge to the linguistic knowledge base, Word-Net. Experimental results on  two text benchmark datasets (20newsgroups and RCV1) show that incorporating  world knowledge as indirect supervision can significantly outperform the  state-of-theart clustering algorithms as well as clustering algorithms  enhanced with world knowledge features.

让学习协议在应用中取得实际效果的重要障碍之一就是我们需要监督他们,而监督就是一个非常消耗的过程,并且需要雇佣领域内的专家。我们设计了一个框架使用世界只是来间接地监督他们。所谓的世界知识即一般性的只是,这里的知识并不为某个问题而特殊设计。这里主要的挑战是如何将这种世界性的知识适应到具体的领域中去,以及如何表示他们以方便学习。在这篇文章中,我们提供了一个学习世界知识的和领域相关的文档聚类。我们提供了三个方法来具体化世界知识具体到领域中,通过解决实体和类型的模糊性以及讲这些数据通过世界知识表示为异构信息网络。然后我们提出了聚类算法可以将不同类型的信息以及他们的次一级信息聚合在一起的算法。在实验中,我们使用了两个现存的知识库作为我们的世界知识的源。其中一个是FreeBase,这个是可以合作地收集知识,包括组织的知识以及实体的知识。另一个就是YAGO2,是一个知识库自动地从维基百科中抽取出来的语言知识库WordNet。实验结果在两个标准测试集(20newsgroups RCV1)上,将世界知识间接地融合进监督中可以明显地比最好的聚类算法以及只是加了世界知识特征的聚类算法要好。

 

这是KDD15的文章。去年的时候,我在UIC讨论的时候讨论过这个文章。这篇文章后面做的工作其实就是通过一些辨别的方法,将相关的知识融合到聚类中,最后算得到的结果比最好的方法要好。这里我在仔细体会别人的文章的特色。首先这里有一定的理论创新,就是一个大的idea(利用所谓的外部的知识来帮助机器学习,或者得到一些有用的标签啊,有用的限制啊。)。这个idea没有什么新奇之处。关键在于,他提出了这里有个重要的问题就是领域适应的问题,就是作者怎么样讲这些东西辨别好,知道Obama是个总统,是个政治人物,然后将他和政治任务相联系。这个点在这里,然后作者就作了一些工作,当然,这些工作看起来也不是特别地难。当然,作者后面还有一点让人信服的是,作者使用的是两个经常作为测试集合的公开的数据集,然后是跟state-of-the-art的方法进行对比。其实这里你只要踏实地对比,哪怕能提高3%也是优秀。毕竟,你是一种理念上的创新和突破。所以,这次我的文章被拒绝,我也是心服口服。没有什么好说的,自己的修行还不到家。一定要继续学习和体会这些文章的精妙之处。

 

 

 

 

 

 

 




https://blog.sciencenet.cn/blog-656867-977029.html

上一篇:[读论文]--KDD12-055 多标签假设的重复应用
下一篇:[读论文]--WWW13-057 时空动态在线信息素
收藏 IP: 61.187.54.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-19 09:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部