推荐系统的评价标准

资源分类

推荐系统的评价标准

2019-10-16 |

202 |

原标题：推荐系统的评价标准来源：AI研习社

链接：https://www.yanxishe.com/TextTranslation/1296

由于推荐系统能够对每一个用户作出更个性化地推荐，所以它在电子商务中变得越来越流行。MAP@K（Mean Average Precision at K）是一种评价推荐系统性能的典型指标之一。然而在某些时候，额外的评价标准和可视化的使用能够对模型性能提供更好的指导。本文讨论了MAR@K（Mean Average Recall at K ）、覆盖面、个性化以及列表内相似度这三个指标，并使用这三个指标去比较三个简单的推荐系统。

我已经将这些功能全部封装到一个python库 — recmetrics，如果你想使用以上的任何一个评价指标或者本文讨论的任何一个技术点，你只需要在命令行执行以下命令即可安装：

$ pip install recmetrics

Movielens数据集

我们在例子中使用的数据来自于流行的Movielens 20m数据集。这些数据包括用户的电影评分和电影类型。（为了增加训练时间，我们会对数据集进行修剪，只包括那么评价电影超过1000部的用户的评分，并且评分低于3分的会被去掉。）

用户电影评分样例

模型

三个不同的推荐系统将会被测试和比较。

1. 随机评价模型（对每个用户随机推荐10部电影）

2. 流行度推荐模型（对每个用户推荐10部最流行的电影）

3. 协同过滤模型（使用SVD进行矩阵分解）

让我们开始用这些评价标准和诊断图来比较这些模型吧！

长尾图

我喜欢通过看长尾图来开始每一个推荐项目。该图用于探索用户项目交互数据中的流行模式，如点击、评价或购买。通常，只有很小一部分的物品有大量的交互作用，这被称为“头部”。大多数项目都在“长尾”中，但它们只占很小比例的交互作用。

长尾图（Movielens 20m样例的评价数据）

由于在训练数据中存在许多对流行项目的观测，因此推荐系统并不难学会准确预测这些项目。在电影数据集中，最受欢迎的电影是大片和经典。这些电影对于大多数用户来说已经是众所周知的，并且它们的推荐可能不会提供个性化体验或者帮助用户发现新的、相关的电影。相关建议被定义为用户在测试数据中积极评价的项目的建议。这里确定的度量提供了评估推荐的相关性和有用性的方法。

MAP @ K和MAR @ K.

推荐系统通常为测试集中的每个用户产生推荐的有序列表。 MAP @ K可以为你提供信息，让你了解了解推荐项目列表的相关性，然而，MAR @ K可以深入了解推荐者能够如何在用户在测试集中回忆用户评价的所有项目。我不会详细描述MAP @ K和MAR @ K，因为可以在这里找到很好的描述：

MAP@K 在ml_metrics库中可以获得，我在recmetrics里也准备了MAR@K 。