我想知道在评估测试集上分类器的性能时找到置信区间的“最佳实践”方法是什么。
据我所知,有两种不同的方法可以评估指标的准确性,例如准确性:
使用公式 interval = z * sqrt( (error * (1 - error)) / n) 评估准确度,其中 n 是样本大小,error 是分类误差(即 1-accuracy),z 是表示高斯倍数的数字标准偏差。
训练将测试集分成 k 个折叠并训练 k 个分类器,为每个分类留下不同的折叠。然后在测试集上评估所有这些并计算均值和方差。
直观地说,我觉得后者可以让我估计性能对数据变化的“敏感度”,而前者可以让我直接比较两个不同的模型。
我不得不说我有点困惑......