博文

当复杂网络遇到机器学习II (附源代码下载)

已有 10560 次阅读 2017-8-30 14:41 |个人分类:科研笔记|系统分类:论文交流| 复杂网络, 机器学习, 张量模型

当复杂网络遇到机器学习II (附源代码下载)

当你在豆瓣上听到一首令你心情畅快的歌曲时，是否有种冲动搜索具有类似风格的音乐呢？当你在LinkedIn上浏览某位专业人士的简历时，是否想扩大搜索范围，网络具有类似技能的专家呢？当你通过标签标识自己的兴趣时，是否想过通过自己的标签信息找到志同道合的小伙伴呢？随着越来越多的应用使用标签系统来进行Web内容的组织，标签驱动的推荐和检索应用也逐渐成为解决信息过载的有效手段。

早期的时候大多数研究关注如何为用户推荐感兴趣的标签上，而通过用户所搜索或者点击过的标签去推荐商品的研究还比较少。近期Weston提出了协同检索的概念，利用张量模型进行表示用户-Query-商品的三元关系。他们的思路可以理解成以用户为中心的协同关系网络，通过矩阵的映射构建起来商品和Query之间的联系。但通过数据分析和现实的情况，我们可以发现商品之间的信息不对称更为严重，很多商品其实并没有几个标签，如图1所示。这会导致在相同的用户搜索目标情况下，信息匮乏的商品会因为没有充分的标签或者文本信息得到不平等的排序结果。像林肯公园一直以硬摇滚著称的乐队拥有庞大的乐迷团体，在虾米上面的标签也是金属摇滚、说唱摇滚。但实际上他们的歌曲风格其实很多变，有让人感到热血沸腾，又让人感到歇斯底里的嘶吼的，我们是否可以给个“热泪盈眶”的标签呢？

图1：包含不同数量关键词的商品概率分布。

在这个工作中，我们更加关注商品之间的信息互通，通过商品端的协同网络让不同商品之间的信息进行互补。以下图例将用户-标签(Query)-商品表示成一张图，图c表达的是商品为中心的关系网络，这里的query通常是某个标签。我们可以看到有些相似商品之间的标签其实是可以互补的，利用这种协同关系，可以解决商品的信息不对称问题。为此，我们提出了基于商品协同网络的张量分解模型，并采用了Pairwise排序学习的方式对模型进行优化，在两个公开的数据集上都获得了不错的效果。