如果您已经知道模型中的预测变量,回归是否需要交叉验证?

数据挖掘 回归 交叉验证
2022-03-10 03:51:44

假设您想对 Y = X1 + X2 的行为进行建模,并且您知道这是您想要制作的模型。这是否能很好地接近真实的关系是未知的。但是,由于您希望能够获得解释 Xi 如何影响 Y 的系数,因此您需要建立一个回归模型。您不打算添加/减去预测变量(因为您没有任何其他数据)并且您不打算将此模型与另一个模型进行比较(没有其他模型允许解释)。

仍然使用样本拆分或交叉验证是否有意义?如果你做交叉验证,你会平均系数吗?或者您是否可以仅使用整个数据集来训练模型。

谢谢!

2个回答

问问自己为什么要执行交叉验证。与 Dave 的回答相反,交叉验证的目的是估计您的泛化误差,这就是您的模型在未来数据上的表现。模型选择当然是由此而来,但是说 CV 的重点是模型选择是不正确的。

也就是说,如果您只对预测变量和因变量之间的关系感兴趣,并且您不想进行某种逐步选择,那么您就不需要执行交叉验证。上一次基于统计的回归教科书/课程提到交叉验证是什么时候?从来没有,至少在我参加的任何回归课程中都没有。

一点,如果你确实使用 CV,绝对不要平均系数。正确的过程是使用 CV 来估计您的错误率,然后重新收集所有数据并在所有数据上运行模型,这将为您提供系数。

你可能会。

(但可能不是。)

交叉验证的目的是帮助您进行模型选择。您已经选择了模型。您可能想要使用交叉验证的一个地方是,如果您想要使用某种正则化,但这可能会干扰您推断每个正则化的能力X影响Y. (正则化的估计是有偏差的。)