假设我们已经训练了一个模型(由它的超参数定义)并且我们使用一些性能指标在测试集上对其进行了评估(比如)。如果我们现在在不同的训练数据上训练相同的模型(由其超参数定义),我们将(可能)得到不同的值.
如果取决于训练集,那么我们将获得围绕平均值的正态分布. 因此不应该平均从各种评估中,以便更好地了解模型的性能?另外,为什么在报告模型差异的性能时不包括在内?这不也是评估模型性能的一个重要因素吗?
我不是在谈论超参数调整。我想我们知道超参数的最佳值,我们需要估计泛化误差。我的问题是因为我们只在测试集上评估一次。