使用预测概率作为回归量

机器算法验证 解释 概率 工具变量 边际效应
2022-04-18 04:16:23

我正在开展一个项目,调查由于移民而导致的工资增长。我首先使用概率模型根据各种特征预测迁移概率,从而纠正迁移决策中的内生性(只有那些最有可能从迁移中受益的人才会迁移)。然后,我在第二步中使用预测概率作为迁移的代理(这实际上是工具变量回归)。

我的问题是我得到了不合理的高估计——工资预计将增加 200%。我担心的是,由于我的预测概率非常低(平均为 3%,第 99 个百分位为 25%),这是合理的,因为样本中只有大约 5% 迁移,我得到的结果来自概率的边际增加从 0 迁移到 1。就我的样本中的预测概率而言,从 0 到 1 的增加是非常极端的。这会导致巨大的估计吗?我是否正确解释了这一点?还是我应该看我的乐器的强度等等?

1个回答

如果您对平均部分效应的近似值感兴趣,您可以在第一阶段使用线性概率模型,即通过 2SLS 进行工具变量估计,例如,以通常的方式。然而,由于涉及非线性,这不是有效的方法,但它可以很好地初步了解所研究的效果。有关该论点的更深入处理,请参见 Wooldridge (2010)“横截面和面板数据的计量经济学分析”,第 15.7.3 节从第 594 页开始。在第 265-268 页,他解释了被禁止的回归及其问题。

Adams 等人使用了您可能感兴趣的另一个程序。(2009 年)他们使用三步程序,其中有一个概率“第一阶段”和一个 OLS 第二阶段,而不会陷入禁止回归问题。他们的一般做法是:

  1. 使用概率回归工具上的内生变量和外生变量
  2. 使用 OLS 第一阶段中上一步的预测值以及外生(但没有工具)变量
  3. 照常进行第二阶段

此过程将产生无偏估计,并且通常比在第一阶段使用线性概率模型进行 2SLS 更有效。