||
从应用的不同场合来看,我们大致可以把个性化推荐系统的测评指标分为通用指标和具体的产品指标两大类。目前在个性化推荐领域,针对两种不同类型的推荐问题,使用较为广泛的两种通用型离线指标分别是RMSE和F-Score。
RMSE主要用来评价评分预测问题的推荐算法优劣。给定用户针对条目的评分集合,将其划分为训练集和测试集,并确保每个用户在训练集和测试集中都有数据。推荐算法利用训练集建立模型,预测不同用户在测试集上的评分,并将预测评分与真实评分之间的均方误差作为评价算法推荐质量的指标,其定义如下:
其中T是测试集。利用RMSE作为评测指标,优势是通用性好、计算简单明确,能够相对客观的反应模型对真实数据的预测能力。
F-Score是统计学里的概念,在个性化推荐系统中尝尝用来针对top-k推荐问题给出评价。在实际的推荐系统中,一方面往往没有用户对条目的明确评分,仅是收藏或浏览数据;另一方面也没有对条目进行评分预测的需求。因此,评分预测在这种场合下不适用,一般是依据训练集的数据给每个用户k个推荐条目,根据这些条目与测试集中相关用户收藏重合的情况来评价算法的优劣。如果用R来表示推荐的条目,那么top-k推荐问题的准确率(Precision)、召回率(Recall)和F-Score可以定义为:
准确率表示给出的k个推荐中多少是对的,召回率表示这k个推荐对测试集中相应用户的条目覆盖率多少。准确率和召回率各表征了模型的预测和覆盖能力,而F-Score则是对这两者的综合,在两方面表现均衡的模型比较容易获得好的F-Score。如果对准确率或者召回率有特殊的要求,可以在相应的指标前加不同的参数,达到合适的效果。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 04:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社