测试集评估的置信区间

数据挖掘 机器学习 分类 统计数据 信心 不确定
2022-03-06 01:40:22

我想知道在评估测试集上分类器的性能时找到置信区间的“最佳实践”方法是什么。

据我所知,有两种不同的方法可以评估指标的准确性,例如准确性:

  1. 使用公式 interval = z * sqrt( (error * (1 - error)) / n) 评估准确度,其中 n 是样本大小,error 是分类误差(即 1-accuracy),z 是表示高斯倍数的数字标准偏差。

  2. 训练将测试集分成 k 个折叠并训练 k 个分类器,为每个分类留下不同的折叠。然后在测试集上评估所有这些并计算均值和方差。

直观地说,我觉得后者可以让我估计性能对数据变化的“敏感度”,而前者可以让我直接比较两个不同的模型。

我不得不说我有点困惑......

1个回答

您需要区分预测的不确定性和类的不确定性。

举一个例子,假设我们在抛硬币。我有 100% 的把握得到“尾巴”的概率是 50%

另一方面,明天有 90% 的概率会下雨,但天气预报员不太确定会发生这种情况。

为了得到这个定义,我建议阅读这篇论文:https ://arxiv.org/abs/1910.09457

近年来的趋势是使用集成方法并提取一些基本统计数据来计算给定的区间