在水一方分享 http://blog.sciencenet.cn/u/zico 复杂网络、推荐系统、社会标签……

博文

浅谈物理学方法在推荐系统中应用价值和意义 精选

已有 10941 次阅读 2010-5-2 22:33 |个人分类:科研笔记|系统分类:科研笔记| 应用, 推荐系统, 复杂网络观察, 物理学方法

但凡看过情景喜剧《天才也性感》(原名:The Big Bang Theory)的人,我想没有不被剧中人物谢尔顿(Shelton)的那种与生俱来的古灵精怪、单纯的性格和执着的信念所吸引的。理论物理学家这个职业的具体内容也随着谢尔顿的出色演出而逐渐被广大观众所熟知。该剧由浅入深的将我们日常生活中所存在的大量物理学现象娓娓道来,从而使得非物理专业人士也能快速理解各种生活现象背后看似深奥的原理。热传导(Heat Conduction)便是众多普遍存在的物理现象中的一种。所谓热传导,是热传递三种方式(即热传导、热对流和热辐射)中的一种。它的工作原理非常简单:当两个不同温度的物体相接触时,热量会从温度高的物体传递到温度低的物体上,直到两者的温度相同,所以热传导方法有助于提高系统中低温度物体的温度。而我们知道,在信息极为丰富的互联网中,对于用户来说,最为迫切问题就是如何帮助他们找到那些他们所感兴趣但不易找到的信息。而这也正是推荐系统所最为关注的问题之一。假设以精确性为衡量一个推荐系统好坏标准的话,那么只要将算法设计得更加容易推荐那些热门的物品即可。举个例子来说,对于一个电影网站,如果一味的倾向于向用户推荐《阿凡达》、《功夫熊猫》之类的热门大片,固然用户会喜欢,推荐的精度也会很高。但这样的推荐结果对于用户来讲是没有任何信息含量的(因为大家早就通过各种渠道了解到了)。反之,如果能够推荐一些适合用户喜好的,但鲜有人关注而用户还不知道的影片。因为长尾效应的存在,推荐那些被收藏次数少、质量高的影片反而能起到“四两拨千斤”般的“惊艳”效果,从而提高用户对系统的信任和黏着性。正是基于这些考虑,近来一些物理学家尝试将热传导的方法应用到推荐系统中来,期望可以利用热量传递的原理,合理的提高温度较低物体的温度,更有利用推荐算法来发现那些不易被用户所察觉的“冷点“信息(即被收藏次数较少的物品)。 

         有了这个想法,在没有其他额外信息(如用户属性,物品属性、描述等)的情况下,利用网络结构(只有节点和连边)来实施基于热传导的推荐方法便成了第一选择。事实上,对于一个固定的网络结构来说,是比较容易应用热传导方法的。因为网络中的节点可以看做是物体,而是否有连边则可看做是两个物体是否有接触。能量只会在有连边的两个节点之间进行传递。那些被收藏次数多的物品可以看做是温度较高的“热点”,被收藏次数少的物品则可以看做是温度较低的“冷点”。能量根据连边的由温度高的节点流向温度低的节点。不难想象,只要给予足够长的时间,所有节点都会达到相同的温度。这种稳态将最大限度的发掘出所有隐蔽的“暗信息”。但很可惜,面对所有温度相同的物体,此时任何推荐算法都会一筹莫展: 如何从中选取合适的物品给用户呢?于是,精确性和多样性便组成了一把双刃剑,综合起来衡量推荐结果的质量。具体来说,就是考虑温度传递的步数与推荐效果的关系。从目前的实验结果来看,在用户—物品组成的二部图中,两步传递会得到较好的推荐结果。多步传递由于涉及到了重复的全局信息,在没有考虑这些重复信息的负作用时,将会得到比较差的推荐效果。因此,从简单和便于实现的角度来说,两步传递是目前热传导方法所采用的主要方法。


    另外,物理学中还有一种被称之为物质扩散(Mass Diffusion)的方法也被广泛的应用到推荐系统中了。从本质上来讲,物质扩散等同于推荐系统的常用的随机游走(Random Walk)方法,只是不同学科对相同方法的不同称呼而已。基于物质扩散和基于热传导的推荐算法的区别在于: 基于物质扩散的方法在进行个性化推荐时,系统的总能量是保持不变即守恒的;而热传导在推荐过程中,目标用户(即被推荐用户)的收藏品将被视作恒温热源,源源不断的给系统提供能量,所以系统的总能量随着传递步骤的增加是在不断增加的。换而言之,对于物质扩散,相当于有固定的初始能量在系统中传递,最后的系统稳态结果是和节点度(即物品被收藏数目)成正比的,所以它倾向于推荐那些度较大(较流行)的物品,相当于一个凸透镜,将用户的视野汇聚在那些较流行的节点上,从而也就不难理解这种方法会对提高推荐的精确性有很大帮助。而对于热传导,因为热源存在的缘故,从而保证系统中有足够的能量可以传递到那些“冷点”上。也正是这个热源的存在,导致系统的最终稳态结果是所有节点温度相同,所以相对于物质扩散来说,热传导倾向于推荐那些度较小(较不流行)的节点,相当于一个凹透镜,把用户的视野发散到了那些较不流行的物品上,从而提高了推荐的多样性。文献[7]将两者结合起来设计了一套行之有效的混合算法,发挥二者的优势,同时在精确性和多样性上提高了推荐算法的性能。

 

   目前的科学研究越来越向交叉科学方向发展,各领域相互学习、借鉴和渗透的趋势也越来越明显。在为各学科提供新鲜血液的同时,也由此诞生了很多新兴学科和研究方向,如生物物理、信息物理、金融物理、经济地理等。物理学作为一门基础性学科,其解释日常生活现象背后原理的优势使得它更容易的被其他学科所认同和接受,并迅速在各学科得到广泛应用。因此我们有理由相信,除了热传导和物质扩散,会有其他的物理学方法和原理将被应用到推荐系统中来,为这一新兴领域的发展壮大添砖加瓦。

 

   附:关于热传导和物质扩散这两种物理方法在推荐系统中的应用,有兴趣进行深入研究的读者可以参考以下论文:

 
[1] Physical Review Letters, 99 (2007) 15430

 [2] Europhysics Letters, 80 (2007) 68003


[3] Physical Review. E, 76 (2007) 046115


[4] Europhysics Letters, 81 (2008) 58004


[5] New Journal of Physics, 11 (2009) 123008


[6] Physica A, 389 (2010) 179


[7] PNAS, 107 (2010) 4511


http://blog.sciencenet.cn/blog-210641-318997.html

上一篇:真实生活中的群集行为
下一篇:2012
收藏

19 康胜 赵星 周涛 章成志 黄富强 刘建国 吕琳媛 闫小勇 王靖文 rosejump luxer colorfulll allenc xuwei520 tangjianquan qianli123456 wlsfrost007 jiangwei913 yinansheng

发表评论 评论 (48 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-12 14:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部