机器算法验证 - 将估计列表与“真实”列表进行比较的指标 - 吾爱随笔录

将估计列表与“真实”列表进行比较的指标

机器算法验证预言排行斯皮尔曼罗模型比较加权数据

2022-03-24 18:27:21

我想知道当我们知道真正的排名是什么以及决定排名的变量时，比较（可能排名）的最佳方法是什么。

假设这是某个列表的前 10 名，我们知道排名，也知道获得排名的变量（Votes）。

真实排名：

                     Player Votes
1           Ablett, Gary GC    28
528        Selwood, Joel GE    27
588           Swan, Dane CW    26
301       Johnson, Steve GE    25
120 Dangerfield, Patrick AD    22
236       Hannebery, Dan SY    21
464    Pendlebury, Scott CW    21
502        Rockliff, Tom BL    21
102       Cotchin, Trent RI    19
285         Jack, Kieren SY    19

现在，假设我有两个列表，由模型 A 和 B 生成。这些模型已经在一组独立的数据上进行了训练，以预测每个玩家在新数据集上获得的票数（与真实排名相关联） .

A型输出：

1        Ablett, Gary GC    41
528     Selwood, Joel GE    30
588        Swan, Dane CW    29
211     Griffen, Ryan WB    28
464 Pendlebury, Scott CW    24
502     Rockliff, Tom BL    24
641      Watson, Jobe ES    23
301    Johnson, Steve GE    22
102    Cotchin, Trent RI    21
180      Fyfe, Nathan FR    21

B型输出：

1           Ablett, Gary GC 29.34127
588           Swan, Dane CW 25.49142
211        Griffen, Ryan WB 22.50983
464    Pendlebury, Scott CW 19.84517
528        Selwood, Joel GE 18.32023
120 Dangerfield, Patrick AD 16.94963
301       Johnson, Steve GE 16.05056
641         Watson, Jobe ES 15.73885
416      Montagna, Leigh SK 15.35478
339      Liberatore, Tom WB 14.50770

确定模型 A 或 B 的输出是否更接近真相的最佳指标或损失函数是什么？我不确定是比较排名更好，还是比较列表之间每个玩家的投票差异更好。有没有最佳的方法呢？还是取决于人们如何选择称重？

在这种情况下，个人在列表中的位置可能比获得的票数更重要，但我想这些信息仍然可以以某种方式使用。我担心的一个问题是，随着您进入“真实名单”，个人之间的投票关系数量会急剧增加。在这种情况下，我想简单地对前 20 或 50 个排名条目进行比较可能会有所帮助。此外，列表越靠后，正确排名就越不重要。例如，位置 1 和位置 2 的项目交换很重要，但交换位置 15 和 16 基本上无关紧要。

我熟悉等级相关方法，但这里有其他更合适的度量吗？这里提到的措施对解决这个问题有用吗？

干杯。

2个回答

您的第一个问题似乎是，对于某些等级，正确预测（通常是较高等级）被认为比其他等级更重要。因此，您应该研究加权排名相关系数，该系数可以赋予最高排名的相似性/不相似性更大的权重。

如果您不熟悉，这里有一些文献：

Pinto da Costa, JF 和 Soares, C. (2005)。相关性的加权等级度量，澳大利亚和新西兰统计杂志，47（4），515-529。

作者摘要：Spearman 等级相关系数在某些应用中并不完全适合衡量两个等级之间的相关性，因为它对所有等级一视同仁。2000 年，Blest 提出了另一种相关性度量，它更加重视更高的排名，但也有一些缺点。本文提出了一种加权等级相关性度量，它使用这些等级的线性函数对两个等级之间的距离进行加权，从而使较高的等级比较低的等级更重要。它分析它的分布并提供一个临界值表来测试给定的系数值是否显着不同于零。该论文还总结了新措施比 Spearman 更适合的一些应用。

上述测度的极限分布可以在

JFP da Costa & LAC Roque (2006)：加权秩相关系数的极限分布 $r_w$ . REVSTAT – 统计期刊第 4 卷，第 3 期，2006 年 11 月，189–200

另一种方法：

Maturi, TA 和 EH Abdelfattah, 2008。新的加权等级相关性。J.数学。统计，4：226-230。

...如果您搜索“加权等级相关系数”，还有更多。

您的第二个问题似乎是考虑预测投票的准确性而不仅仅是预测的排名是否重要、重要或有用。

我在这里只有一个初步的想法：预测性能指标，通常忽略预测是否低估或过度预测，并考虑绝对偏差或平方偏差。在您的情况下，评估这两个模型是否倾向于低估或高估似乎很有用。也许您应该检查他们未能预测正确的排名，看看是由于预测不足还是过度预测了选票。我的意思是，假设那个人 $X$ 真正的排名 $5$ 被预测为排名 $6$ 按型号 $A$ . 这是因为人的选票吗 $X$ 被低估了？或者他们被高估了，但其他人的投票也被高估了？真实数据集中的投票距离在这里似乎是一个可能的标准化因素。当考虑可能应用它们的其他数据集时，这可能会得出一些关于两个模型的比较评估有多“稳健”的结论。但我承认我只是在胡思乱想。我会尝试对此进行一些理论上的搜索/工作，如果我做到了，我会更新我的答案。

简单的方法是简单地在排名上构建一个损失函数，比如平方误差。

但是，由于您担心关系并希望使用投票数据，您可以尝试对选票的累积分布函数 (CDF) 进行建模，您可以通过参数或非参数进行建模。然后，您有 3 个拟合的 CDF：真值、模型 A 和模型 B。您可以根据投票分布之间的平方差的积分和来构建分布损失函数。

然后，您可以结合这两个损失函数来构建两者的参数加权损失函数，例如 $\alpha*L_{1}+(1-\alpha)*L_{2}$ . 然后，您可以搜索可能的值 $\alpha$ 表现最好的。

其它你可能感兴趣的问题

上一篇四元数的协方差*是什么意思*？下一篇我还能解释使用离散/舍入数据的 QQ 图吗？