机器算法验证 - 交叉验证的预测错误是 iid 吗？ - 吾爱随笔录

机器算法验证交叉验证预言错误独立

2022-03-28 18:11:14

比如说，我们使用留一法交叉验证独立样本上测试任意回归或分类过程。这导致对每个样本的估计。 $n$ $e_n$ $n$

可以假设这些是（可能未知的）分布的独立绘制吗？ $e_n$

我的直觉说不，因为（1）每个测试样本的训练集几乎相同，并且（2）样本用于训练和测试。

如果我的直觉是错误的，并且错误是独立的，那么k折交叉验证呢，其中相同的训练集用于样本组？ $n/k$

免责声明：我试图尽可能简明扼要地提出这个问题。如果它缺乏细节或特异性，请发表评论，我会相应地更新问题。

2个回答

我认为你需要清楚你需要代表什么分布。这根据交叉验证的用途而有所不同。

如果交叉验证旨在测量（近似）从该特定训练集中获得的模型的性能，则相应的分布将是手头训练集中的案例分布。从这个角度来看，你几乎画了整个人口，尽管没有替代品。
相反，如果您询问从训练集所来自的总体中抽取参见例如Bengio, Y. 和 Grandvalet, Y.：No Unbiased Estimator of the Variance of K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105。这对于比较哪种算法对特定类型的数据表现更好很重要。 $n$

他们不能独立。考虑添加一个极端异常值样本，那么您的许多交叉验证折叠将以相关的方式倾斜。

其它你可能感兴趣的问题