应该如何在线性回归模型中对虚拟变量进行建模?

数据挖掘 线性回归 预言 虚拟变量
2022-02-18 22:33:46

我有一个横截面模型,我想预测接受特定服务的用户数量,为此我有很多变量,但具体有两个名义:isWorkday(0 或 1) 和 weeday(1,2,3,.. .,7)。当我制作模型时,考虑到这两个变量,会产生高度的多重共线性。所以我删除了其中一个,所以最好有很多假人(工作日)或更少假人(isWorkday)。

1个回答

由于您的任务是预测某事,因此更好的变量是能够为您提供更高预测准确度的变量。因此,您可以简单地测试两者并选择模型性能更好的一个。

但是,我建议考虑设计自己的功能,将两个变量的信息结合起来。例如,您可以创建三个虚拟变量:工作日周末假期,并将其中两个包含到您的模型中(以防止陷入虚拟变量陷阱)。另一种选择是仅包含isWorkdayweekday之间的交互项。