||
这篇文章总结了常见的一些推荐系统的评价方法。
绝大多数的推荐系统都利用准确度评价推荐算法的好坏。假设用户可以考察所有产品的信息,并且可以根据自己对产品的偏好程度对产品进行排序,那么准确度可以定义为推荐算法的预测排名与用户的实际排名的贴近度。由于不同系统的任务是不一样的,而且评价指标缺乏标准化,因此很难对不同系统的推荐算法进行比较。针对不同的系统,已有的准确度指标有:预测准确度、分类准确度、排序准确度、预测打分关联、距离标准化指标和半衰期效用指标。
预测准确度:
预测准确度考虑推荐算法的预测打分与用户实际打分的相似程度。预测准确度的一个经典度量方法是度量系统的预测打分与用户的实际打分的平均绝对误差(Mean Absolute Error)。
其中,c为系统中用户i打分产品的个数,为用户的实际打分,为系统的预测打分。
这种方法有两个优点:
1)计算方法简单,易于理解;
2)每个系统的平均绝对误差唯一,从而能够区分两个系统平均绝对误差的差异。
与平均绝对误差相关的其它指标有平均平方误差(Mean Square Error)和标准平均绝对误差(Normalized Mean Absolute Error)。平均平方误差定义为:
其中,为系统中用户一产品对的个数。。平均平方误差在求和之前对系统预测打分与用户打分误差进行平方,因此打分误差越大,其对平均平方误差的影响会比平均绝对误差更大。
分类准确度:
分类准确度定义为推荐算法对一个产品用户是否喜欢判定正确的比例。因此,当用户只有二元选择时,用分类准确度进行评价较为合适。而且这种方法受打分稀疏性的影响。虽然目前有一些方法处理打分稀疏性问题,但效果并不理想。
另一种广泛应用的分类准确度指标为准确率、召回率以及相关指标。但准确率和召回率的计算又成了另一个新的问题。
另外一个度量系统分类准确度的重要指标就是ROC曲线。
排序准确度:
排序准确度用于度量推荐算法产生的列表符合用户对产品排序的程度。有人提出用平均排序分(average ranking score)度量推荐系统的排序准确度。个人觉得太简单。
预测打分关联:
预测打分关联分析系统的打分排序与用户实际的打分排序之间的关联关系。与预测准确度不同的地方在于,预测打分关联不考虑预测打分与用户打分各单项的偏差,而是考虑两者之间整体的相关程度。定义如下:
其中,x和y为两个向量中对应位置的打分值,n为向量的维度。
预测打分关联的优点是:可以比较多通道打分系统的排名,计算简单且对全部系统只返回一个值。但是不同的计算方法也有各自的缺点。
距离标准化指标(NDPM):
NDPM 的核心思想为:对比系统预测打分排名与用户实际排名的偏好关系,对基于偏好关系的度量进行标准化,具体定义如下:
其中,一为系统排序与用户排序相冲突的个数,;为相容的个数;为用户排序中有偏好关系的产品总数。
准确度之外的评价指标:推荐列表的流行性和多样性、覆盖率、新鲜性和意外性、用户的满意度。
总之目前来看,很多个性化推荐系统的评价方法很具有局限性,因为用户的喜好本身就是一个很主观的问题。
刘建国, 周涛, 郭强, 等. 个性化推荐系统评价方法综述[J]. 复杂系统与复杂性科学, 2009, 6(3): 1-10.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 04:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社