推荐系统的评估

数据挖掘 推荐系统 评估 信息检索 类似文件
2022-02-27 05:25:35

我开发了一个基于内容的推荐系统,它运行良好。输入是一组文档={d1,d2,d3,...,dn},输出将是给定文档 output={d10,d11,d1,d8,...} 的前 N ​​个相似文档。我观察了结果,发现它令人满意,我的问题是如何衡量系统的性能和准确性。

我做了一些研究,发现召回率、精度和 F1 分数用于评估预测用户评分的推荐系统。为此,我们不应该没有原始评分,然后系统应该预测评分,然后我们可以绘制混淆矩阵,然后计算上述指标。但是,在我的例子中,我没有预测任何东西,而是测量余弦相似度分数,按降序排序并选择前 N 个。

在这个用例中,我如何评估系统?

谢谢

1个回答

关于不同类型的输出及其相应的评估存在一些混淆:

  • 可以将前 N 个结果视为预测为正,任何低于 N 的结果都视为预测为负。在此选项中,可以使用二元分类评估度量:精度、召回率、f1-score 将是这种情况下的标准度量。
  • 可以考虑分配给全套结果的评级/分数。在这种情况下,有两种选择:
    • 如果数值结果具有可比性,例如相同类型的评级,则可以使用标准回归评估措施,例如 RMSE。
    • 如果不是,那么仍然可以比较结果的顺序。在这种情况下, Spearman 秩相关是一种常见的评估度量。

在您的情况下,您似乎可以使用分类或排名评估措施。当然,这些评估方法中的任何一种都需要黄金标准结果才能将预测与它们进行比较。