如果要在模型选择中删除一个因子变量,是否应该同时删除所有级别?如果是这样,为什么?

机器算法验证 模型选择 多重比较 分类数据
2022-03-30 22:01:25

为了回答先前的问题,讨论了模型选择中的因子池。

如果要在模型选择中删除一个因素或分类变量,是否应该同时删除所有级别?如果是这样,为什么?

删除因子的动机是帮助模型解释。例如,我可能有兴趣解释在访问商店时影响客户行为的因素,并且有一个包含“步行、公共汽车、私家车、出租车等”因素的分类变量“旅行模式”。在这种情况下,我可以删除除“私家车”以外的所有虚拟变量,因为它们的估计量级并不大,并且不是行为的重要预测因子。然后,我最终得到了一个“乘坐私家车”与“没有乘坐私家车”的变量,并且不必担心会因解释其他大部分无趣的变量而困扰读者。

1个回答

如果没有交叉验证,我真的不确定答案会是什么。但是,如果我们进行交叉验证,并且我们发现,比如说,6 个种族中的一个种族在 Y 方面与其他种族有很大不同,我似乎看不出在后续方程中仅使用该群体的虚拟变量有什么问题。如果该组的成员身份/非成员身份有助于预测结果(或解释它,就此而言),为什么要用一堆无用的预测假人来糊弄方程,这只会增加噪音预测?