数据挖掘 - 排名问题和不平衡数据集 - 吾爱随笔录

排名问题和不平衡数据集

数据挖掘机器学习阶级失衡排行学习排名

2022-03-04 03:47:32

我知道当我们处理分类问题时，不平衡数据集会导致的问题。我知道解决方案，包括欠采样和过采样。

我必须解决排名问题（根据 NDCG50 评分对酒店进行排名并评估此链接），并且数据集非常不平衡。但是，我在互联网上看到的示例按原样使用数据集并将其传递给 train_test_split 而不进行过采样/欠采样。

如果在不平衡数据无关紧要并且我们不需要在将数据传递给模型之前解决这个问题的排名问题中这是真的，我有点困惑？

如果是这样，为什么？

谢谢

1个回答

你是完全正确的，标签的不平衡确实会对排名问题产生影响，人们正在使用技术来应对它。

您笔记本中的示例应用了逐列表梯度提升。由于可以通过将 NDCG 注入梯度来逐个列表地进行成对排名，因此我将专注于论点的成对排名损失。我将以这篇论文为基础（https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/MSR-TR-2010-82.pdf）。

$C = -\bar{P}_{ij}$ 日志 $P_{ij} - (1 - \bar{P}_{ij})$ 日志 $(1 - P_{ij})$

和， $P_{ij}\equiv P(U_{i}\rhd U_{j})\equiv {1\over{1 + e^{-\sigma(s_{i} - s_{j})}}}$ 和因为是或。 $\bar{P}_{ij} = {1\over2}(1 + S_{ij})$ $S_{ij}$ $0$ $1$

这实际上只是一个分类问题，0 是文章 i 的相关性低于文章 j，而 1 则相反。

想象一下，现在您正在处理具有大量匹配文档但只有几个文档被标记为相关的查询。通常这种稀疏标记并不意味着只有这些文档是相关的，而只是由相关性估计的限制引起的（https://www.cs.cornell.edu/people/tj/publications/joachims_etal_05a.pdf）。

因此，对高评分文档进行下采样并不罕见。

应用不平衡方法（例如重新加权标签）的另一个原因是例如由于位置而产生的偏差（参见例如https://ciir-publications.cs.umass.edu/getpdf.php?id=1297）。当标记相关性时，根据观察到的文档位置重新加权损失。

其它你可能感兴趣的问题

上一篇用于在不同模型之间进行选择的指标 - 超参数调整下一篇多类分类的适当统计显着性检验是什么？