我正在进行交叉验证研究,在输入上训练模型以预测目标。
在训练期间,我的模型生成一个输出向量,保证与相应的训练目标向量大小相同。我可以使用或 RMS 误差等指标来量化这一点。
在测试期间,我的模型可以生成与输入大小不同的输出向量(但它们的数量级相同)。我想知道是否有任何方法可以量化模型输出和测试集目标之间的相似性。
到目前为止,我想出的是在模型输出分布与测试目标分布相同的零假设下比较分布。我正在使用诸如 Kolmogorov–Smirnov 检验、Ansari-Bradley 检验或置换检验之类的东西。对于每个交叉验证折叠,有 1 个 p 值。报告 p 值的平均值来总结这一点是否有效?还是有更好的方法来做到这一点?