比如说,我们使用留一法交叉验证独立样本上测试任意回归或分类过程。这导致对每个样本的估计。
可以假设这些是(可能未知的)分布的独立绘制吗?
我的直觉说不,因为(1)每个测试样本的训练集几乎相同,并且(2)样本用于训练和测试。
如果我的直觉是错误的,并且错误是独立的,那么k折交叉验证呢,其中相同的训练集用于样本组?
免责声明:我试图尽可能简明扼要地提出这个问题。如果它缺乏细节或特异性,请发表评论,我会相应地更新问题。
比如说,我们使用留一法交叉验证独立样本上测试任意回归或分类过程。这导致对每个样本的估计。
可以假设这些是(可能未知的)分布的独立绘制吗?
我的直觉说不,因为(1)每个测试样本的训练集几乎相同,并且(2)样本用于训练和测试。
如果我的直觉是错误的,并且错误是独立的,那么k折交叉验证呢,其中相同的训练集用于样本组?
免责声明:我试图尽可能简明扼要地提出这个问题。如果它缺乏细节或特异性,请发表评论,我会相应地更新问题。
我认为你需要清楚你需要代表什么分布。这根据交叉验证的用途而有所不同。
如果交叉验证旨在测量(近似)从该特定训练集中获得的模型的性能,则相应的分布将是手头训练集中的案例分布。从这个角度来看,你几乎画了整个人口,尽管没有替代品。
相反,如果您询问从训练集所来自的总体中抽取参见例如Bengio, Y. 和 Grandvalet, Y.:No Unbiased Estimator of the Variance of K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105。
这对于比较哪种算法对特定类型的数据表现更好很重要。
他们不能独立。考虑添加一个极端异常值样本,那么您的许多交叉验证折叠将以相关的方式倾斜。