偏差-方差权衡和模型评估

数据挖掘 机器学习 评估 模型评估
2022-02-19 20:23:59

假设我们已经训练了一个模型(由它的超参数定义)并且我们使用一些性能指标在测试集上对其进行了评估(比如R2)。如果我们现在在不同的训练数据上训练相同的模型(由其超参数定义),我们将(可能)得到不同的值R2.

如果R2取决于训练集,那么我们将获得围绕平均值的正态分布R2. 因此不应该平均R2从各种评估中,以便更好地了解模型的性能?另外,为什么在报告模型差异的性能时不包括在内?这不也是评估模型性能的一个重要因素吗?

我不是在谈论超参数调整。我想我们知道超参数的最佳值,我们需要估计泛化误差。我的问题是因为我们只在测试集上评估一次。

1个回答

估计泛化误差的方差很有用,最好通过交叉验证进行评估(而不是在训练/测试拆分上)。数据应该被分成多个折叠,每个折叠都应该使用相同的算法和超参数进行训练。然后每个训练折叠应评估其各自的验证折叠。鉴于重复的性质,可以估计泛化误差的“传播”。

此外,R2通常被认为不是评估泛化误差的合适指标,因为R2依赖于训练数据的平均值。