|
Incorporating World Knowledge to Document Clustering via Heterogeneous Information Networks |
将世界知识通过异构信息网络综合到文档聚类中去 |
One of the key obstacles in making learning protocols realistic in applications is the need to supervise them, a costly process that often requires hiring domain experts. We consider the framework to use the world knowledge as indirect supervision.World knowledge is general-purpose knowledge, which is not designed for any specific domain. Then the key challenges are how to adapt the world knowledge to domains and how to represent it for learning. In this paper, we provide an example of using world knowledge for domain dependent document clustering. We provide three ways to specify the world knowledge to domains by resolving the ambiguity of the entities and their types, and represent the data with world knowledge as a heterogeneous information network. Then we propose a clustering algorithm that can cluster multiple types and incorporate the sub-type information as constraints. In the experiments, we use two existing knowledge bases as our sources of world knowledge. One is Freebase, which is collaboratively collected knowledge about entities and their organizations. The other is YAGO2, a knowledge base automatically extracted fromWikipedia and maps knowledge to the linguistic knowledge base, Word-Net. Experimental results on two text benchmark datasets (20newsgroups and RCV1) show that incorporating world knowledge as indirect supervision can significantly outperform the state-of-theart clustering algorithms as well as clustering algorithms enhanced with world knowledge features. |
让学习协议在应用中取得实际效果的重要障碍之一就是我们需要监督他们,而监督就是一个非常消耗的过程,并且需要雇佣领域内的专家。我们设计了一个框架使用世界只是来间接地监督他们。所谓的世界知识即一般性的只是,这里的知识并不为某个问题而特殊设计。这里主要的挑战是如何将这种世界性的知识适应到具体的领域中去,以及如何表示他们以方便学习。在这篇文章中,我们提供了一个学习世界知识的和领域相关的文档聚类。我们提供了三个方法来具体化世界知识具体到领域中,通过解决实体和类型的模糊性以及讲这些数据通过世界知识表示为异构信息网络。然后我们提出了聚类算法可以将不同类型的信息以及他们的次一级信息聚合在一起的算法。在实验中,我们使用了两个现存的知识库作为我们的世界知识的源。其中一个是FreeBase,这个是可以合作地收集知识,包括组织的知识以及实体的知识。另一个就是YAGO2,是一个知识库自动地从维基百科中抽取出来的语言知识库WordNet。实验结果在两个标准测试集(20newsgroups 和 RCV1)上,将世界知识间接地融合进监督中可以明显地比最好的聚类算法以及只是加了世界知识特征的聚类算法要好。
|
这是KDD15的文章。去年的时候,我在UIC讨论的时候讨论过这个文章。这篇文章后面做的工作其实就是通过一些辨别的方法,将相关的知识融合到聚类中,最后算得到的结果比最好的方法要好。这里我在仔细体会别人的文章的特色。首先这里有一定的理论创新,就是一个大的idea(利用所谓的外部的知识来帮助机器学习,或者得到一些有用的标签啊,有用的限制啊。)。这个idea没有什么新奇之处。关键在于,他提出了这里有个重要的问题就是领域适应的问题,就是作者怎么样讲这些东西辨别好,知道Obama是个总统,是个政治人物,然后将他和政治任务相联系。这个点在这里,然后作者就作了一些工作,当然,这些工作看起来也不是特别地难。当然,作者后面还有一点让人信服的是,作者使用的是两个经常作为测试集合的公开的数据集,然后是跟state-of-the-art的方法进行对比。其实这里你只要踏实地对比,哪怕能提高3%也是优秀。毕竟,你是一种理念上的创新和突破。所以,这次我的文章被拒绝,我也是心服口服。没有什么好说的,自己的修行还不到家。一定要继续学习和体会这些文章的精妙之处。 |
|
|
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-20 11:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社