虚拟连续交互中连续变量的解释

机器算法验证 多重回归 分类数据 相互作用 解释 回归系数
2022-04-06 04:37:37

以前也有人问过类似的问题,但它们都集中在虚拟或交互项上。

假设对模型运行 OLS 回归:

ln(housePrice)=β1×pollutionLevel+β2×DN+u

其中是一个虚拟变量,表示房子附近是否有学校。DN

的解释很简单,但在模型中:β1β2

ln(housePrice)=β1×pollutionLevel+β2×DN+β3×pollutionLevel×DN+u

还不是很清楚。

我理解的解释,但 \beta_1 的解释如何当附近没有现在只是污染级别的影响,还是完全错误的?β3β1β1

提前感谢您的帮助!

2个回答

是的,在你的情况下是正确的。下面是一个让自己相信该声明的好方法。

假设您想找出污染水平对房价对数的影响。

 ln(housePrice) pollutionLevel=β1+β3×DN

时,污染水平对房价百分比变化的影响只是(DN=0)β1

一般看待这个问题的一种方法是通过@Giaco.Metrics 的回应中的边际效应。另一种通用技术是区分情况。

对于(附近没有学校,参考组),您的等式简化为:DN=0

ln(housePrice)=β1×pollutionLevel+u ,

即,您在参考组中β1

对于(附近的学校),您得到DN=1

ln(housePrice)=β1×pollutionLevel+β2+β3×pollutionLevel+u=β2+(β1+β3)×pollutionLevel+u

即,您在学校组中和斜率所以是截距的差异,而是斜率的差异。β2β1+β3β2β3