|||
本文对用户建立了一个基于信号的模型(signal-basedmodel),并考虑了时间因素,用于计算用户之间的相似度。
计算用户间的相似度,以往的文献中主要从三个方面入手:基于内容的(content-based),基于关系的(relation-based)和基于标签的(tag-based)。本文的贡献在于,考虑了时间因素对相似度的影响。
那基于信号的模型,如何计算用户间的相似度呢?下面从几个概念和公式入手,导出最终的相似度计算公式。
Pseudo-document user model
将用户所发布的信息(推文)看做成文档,公式如下:
T是所有推文的集合,U是所有用户的集合。
Bag-of-Signal user model
上面的模型考虑的是用户所发布的信息,之后可能会提取关键字(keyword)来表征用户。本文提出了概念(Concept)的定义,它比关键字更具有语义上的意义(Conceptsare entities more semantically significant than simple keywords)。本文考虑的Concepts主要是两方面:标签(hashtag)和命名实体(namedentities)。命名实体的检测使用OpenCalais(http://www.opencalais.ccom/)工具。
首先引入信号组件(Signal component)的概念。用户的生命周期被划分为时间段(period),用户在某一时间段上,对某个概念的表现强度定义为信号组件:
可以看出,信号组件与用户(u)、概念(c)、时间段(p)相关。其中的CF和IPF是借鉴于信息检索技术中的TF-IDF模型。
CF为概念频度(concept-frequency):
其中分子代表用户u在时间段p内出现概念c的次数。分母表示用户u在所有时间段,出现次数最多的概念的频度。
IPF为逆时间段频度(inverse-period-frequency):
其中,分母为用户u在时间段p内发布的推文总数。分母为用户u在时间段p内发布包含概念c的推文数目。
那现在可以给出信号的定义了——信号是信号组件的有序集合:
信号只是一个用户针对某一特定概念在时间段上信息的集成,再加上概念集合的集成,就最终确定了用户模型:
本文还使用了小波变换的技术。由于对小波变换还不是很了解,先在只给出最终整理的结果,求两个用户之间的相似度:
这与余弦相似度很类似。
本文的特点在于将TF-IDF模型改造成适用于推文的模型,同时将时间的概念融入用户模型,巧妙设计了信号的概念,以便套用小波变换。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 15:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社