为了回答先前的问题,讨论了模型选择中的因子池。
如果要在模型选择中删除一个因素或分类变量,是否应该同时删除所有级别?如果是这样,为什么?
删除因子的动机是帮助模型解释。例如,我可能有兴趣解释在访问商店时影响客户行为的因素,并且有一个包含“步行、公共汽车、私家车、出租车等”因素的分类变量“旅行模式”。在这种情况下,我可以删除除“私家车”以外的所有虚拟变量,因为它们的估计量级并不大,并且不是行为的重要预测因子。然后,我最终得到了一个“乘坐私家车”与“没有乘坐私家车”的变量,并且不必担心会因解释其他大部分无趣的变量而困扰读者。