《个性化推荐系统评价方法综述》
作者:刘建国,周涛,郭强,汪秉宏
发表期刊:复杂系统与复杂性科学
总述: 这篇文章主要6中评价推荐算法准确度的指标,指出了不同指标的应用环境以及各自的优缺点;同时,介绍了准确度之外的一些评价指标,包括推荐产品的流行性、覆盖率、系统发现新鲜产品的能力以及用户满意度等。最后提出了目前的评价指标共同面临的问题以及可能的发展方向。
1、准确度评价指标
假设用户可以考察所有产品的信息,并且可以根据自己对产品的偏好成都对产品进行排序,那么准确度可以定义为推荐算法的预测排名与用户的实际排名的贴近度。已有的准确度指标有:预测准确度、分类准确度、排序准确度、预测打分关联、距离标准化指标和半衰期效用指标。
1.1 预测准确度
预测准确度主要考虑推荐算法的预测打分和用户的实际打分的相似程度。在预测分值显示给用户的系统中,预测准确度显得非常重要。它的一个经典度量方法是:计算系统的预测打分与用户的实际打分的平均绝对误差MAE。
2.2 覆盖率
覆盖率指的是可以预测打分的产品占所有产品的比例。只有高覆盖率的系统才能尽可能多的找到用户感兴趣的产品。计算覆盖率最简单的方法就是随机选取若干用户-产品对,对每个用户-产品对都做一次预测,衡量可以预测的产品占所有产品的比例。
2.3 新鲜性和意外性
推荐系统除了要具有非常高的准确率和相对合理的覆盖率之外,还要能够对用户推荐他们感到意外和新鲜的产品。Sarwar B M等讨论了如何修改用户的推荐列表似的新的推荐列表具有新鲜性和意外性。一个简单的方法是建立一个独立的流行产品库,在把用户的推荐列表提供给客户之前先把那些出现在用户推荐列表中的流行产品删除,剩下的产品自动前移在推荐列表中的位置。另一个方法是在用户群中把每个用户喜欢某个产品的概率除以这个用户群中所有人喜欢这个产品的概率之和,再重新排序,这样可以判断这个用户是否比群体中的其他人更喜欢这个产品。
2.4 用户的满意度
研究发现系统的预测打分值也影响着用户的打分。如果系统能够向用户解释为什么给用户推荐这些产品,就非常有助于增强用户对系统推荐结果的信心。这个也是我在实际项目工作中感受最深的。如果你像用户解释你的结果,会增强他们对你的结果的信心和认可度,否则他们会对你的系统生成的结果持怀疑和不信任的态度。
小结:
总结起来,推荐系统的度量指标非常多,纷繁复杂。针对不同的推荐系统,针对不同的推荐目的和实际应用选择对应的合适的度量指标是非常重要并且相对难度比较大的一件事情。下一篇非综述类英文文章才是真正考验的开始。
1、 忽略还没有打分的产品
2、 假设存在默认打分,常常对还没有打分的产品打负分。但是默认打分常常与实际的打分相差甚远。
3、 计算用户打分高的产品在推荐列表中出现的次数,即度量系统在多大程度上可以识别出用户十分喜欢的产品。但是这种方法容易把推荐系统引向偏的方向:一些方法或者系统对某数据集中已知的数据表现非常好,但是对未知的数据表现非常差。
[2] Swet`A优点:可以用一个数值表征系统的表现,并且不受推荐列表长度的限制。
缺点:需要分析每个用户潜在感兴趣的产品、只考虑面积、识别两条曲线面积的不同需要大量数据点以保证统计结果的准确度。
[3] 弱排序:指的是至少两个产品的打分是一样的,繁殖,每个产品打分都不同的排序叫做完全排序。
关于文中提到的ROC曲线,现在理解仍然不到位,主要是在ROC曲线绘制上,不知道横轴和纵轴的表示意义。
科学网博客的内容格式表示非常不智能啊,只好加附件了了~
转载本文请联系原作者获取授权,同时请注明本文来自张琳艳科学网博客。 链接地址: https://blog.sciencenet.cn/blog-477668-579912.html
上一篇:
潇洒走一回 下一篇:
再来一则学习笔记