假设我想比较一个推荐系统 (A) 是否比另一个 (B) 更好。
一种方法是让人们对两个系统返回的推荐进行评分。
但是,在某些情况下,我想离线评估我的推荐系统。我考虑的一种方法是从系统 A 收集用户对推荐的评分,并将它们转化为测试数据集。但是,如果系统 B 返回的推荐没有出现在测试数据集中,这并不意味着它们不好。这只是意味着我对他们没有评价。
一些替代方案:
- 尽量增加测试数据集的数量,以增加推荐者之间的重叠。
- 限制项目空间的大小,让推荐者在测试期间从 500 个而不是 5*10^6 个项目中选择项目。
您会推荐哪些其他方法?