我开发了一个基于内容的推荐系统,它运行良好。输入是一组文档={d1,d2,d3,...,dn},输出将是给定文档 output={d10,d11,d1,d8,...} 的前 N 个相似文档。我观察了结果,发现它令人满意,我的问题是如何衡量系统的性能和准确性。
我做了一些研究,发现召回率、精度和 F1 分数用于评估预测用户评分的推荐系统。为此,我们不应该没有原始评分,然后系统应该预测评分,然后我们可以绘制混淆矩阵,然后计算上述指标。但是,在我的例子中,我没有预测任何东西,而是测量余弦相似度分数,按降序排序并选择前 N 个。
在这个用例中,我如何评估系统?
谢谢