||
随着互联网和电子商务的发展,我们足不出户就能在线选择和购买自己喜欢的产品。为了获得用户对产品的反馈,很多网站都引入了在线评分系统,鼓励用户对产品进行评价,如:淘宝,亚马逊等。产品的获得评分的高低,一方面能体现产品的口碑,另一方面可以潜在影响其他用户的选择。那么问题来了,一些商家可能会通过虚假评分来提高自家商品信誉,一些用户也可能乱评论乱打分。这些虚假或干扰信息会损害在线评分系统的准确性,甚至扰乱电子商务的秩序。目前,解决这一问题的普遍做法是建立信誉评价系统,根据用户的历史评分模式来评价其信誉度。
现有的算法通常都隐含这样一种假设:每个产品都有一个质量分数来体现其质量的好坏(一般以平均评分来估计)。在这类“基于产品质量”的算法中,最具代表性的是我们于2011年提出的基于关联性的迭代寻优算法(EPL最佳论文)。一方面,产品的质量高低由用户评分的加权平均决定,信誉度高的用户权重大;另一方面,用户的信誉又反过来由他的评分与产品质量之间的相关性决定,评分越接近产品质量的用户信誉越高。通过这样的迭代的过程,产品的质量和用户的信誉最终达到稳定值。不论是针对人工生成的数据,还是真实的数据,我们的迭代寻优算法都具有很好的准确性和极高的鲁棒性。
然而,在线评分系统是一个社会化平台,评分行为会受到用户的个人偏好和背景等众多因素影响。所以,不同用户可以针对相同的产品给出多个合理的评分。尽管产品的真实质量未知,但可以通过其获得的评分来体现:如果评分很集中,那么产品的质量显而易见;如果评分很分散,那么产品的质量就很难说。在这个框架下,产品仅具有单一质量的假设不再适合。不难想象,对于质量难以把握的产品,一个随机评分是可以接受的;而对于质量显而易见的产品,一个偏差评分则难以接受的。这样一来,与大众选择保持一致的用户将形成大的群组并获得高信誉,因为人类有从众的天性;背离大众的作弊用户只能形成小的群组并获得低信誉,因为与他们评分一致的用户很少。
我们的新方法是以群组的大小来计算用户的信誉。简单的说,将用户根据他们评分进行分组,用户的信誉由他们所属组的相对规模来决定。如果一个用户总是属于大组,那么他的就信誉高;相反,他的信誉就低。我们在三个数据集上测试了算法,包括两个电影评分数据(MovieLens和Netflix)和一个商品评分数据(Amazon)。实验结果显示,我们方法不仅在应对作弊评分用户上具有更好的效果,而且算法的复杂度很低。更为重要的是,这种“基于群组”方法不再受限于产品具有唯一质量的假设,为我们评价在线系统用户的信誉提供了全新的思路。
论文信息:
Jian Gao, Yu-Wei Dong, Ming-Sheng Shang, Shi-Min Cai, and Tao Zhou. Group-based ranking method for online rating systems with spamming attacks. EPL, 110 (2015) 28003.
论文链接:
http://iopscience.iop.org/0295-5075/110/2/28003/article
全文下载:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 05:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社