综合控制法

机器算法验证 合成数据
2022-04-01 05:18:44

我遇到了这个期刊http://www.hks.harvard.edu/fs/aabadie/ccsp.pdf它基本上使用综合控制方法(SCM)来估计事件发生时对变量的影响与事件发生时的差异不会发生(至少我是这样理解的)。我发现的另一篇研究论文使用这种方法来估计成为欧元成员与不是欧元成员的影响(如果我没记错的话,他们在希腊使用这个)。但我有点赶上模型的解释(方程,特别是......)

因此,我只是想知道你们中是否有人熟悉 SCM 并且可以用更简单的语言简要解释一下?具体来说,假设我有兴趣了解成为欧元会员与不成为会员对增长率的影响,如果我想使用 SCM,我应该怎么做?我注意到这里有一些关于 SCM 的问题,但它们对我来说都有点高级。

提前致谢。

2个回答

让我们从标准回归设置开始,当您只有一个国家接受“治疗”(输入欧元)时,您试图在固定效应模型中估计效果。该策略假设,在可观察到的情况下,其他国家的平均值可以作为一个合理的反事实,以证明您所处理的国家如果没有接受治疗(即远离欧元)会做的事情。这个估计可能存在偏差,因为治疗不是随机的,但可能与影响您关心的结果的因素有关。

SCM 说,与其使用所有其他单位,不如让我们找到在预处理期间看起来非常相似的它们的加权平均值。SCM 将“相似”定义为具有非常相似的结果变量预处理路径,而对于似乎与结果变量相关的协变量具有相似的预处理值。然后,“治疗效果”是您治疗单位的实际路径与加权平均后治疗路径之间的差异(权重是从预处理优化中固定的)。推理是通过置换测试完成的(如果我们发明了“假”处理并在其他未实际处理的单元上估计 SCM,我们会看到什么是典型的“效果”)。

SCM需要的主要点是:

  • 很多前期治疗。随着预处理期的数量相对于模型中的“误差”变大,SCM 估计中的偏差变为零。由于通常 SCM 用于聚合数据,因此“错误”与其说是抽样错误,不如说是模型错误规范(无法合成控制是一个很好的反事实)。这有点类似于与其他估计器的根 N 一致性。
  • 您担心的未观察到的因素应该对治疗前期间的结果产生了一些影响。这是一个需要在你的上下文中争论的假设。
  • 综合控制需要在预处理期间很好地匹配处理单元。您可以通过查看虚假排列来衡量这一点。通常,您需要在预处理期间将处理过的单元置于观察的凸包中。

成为欧元成员国与非成员国对增长率的影响是成为成员国后的增长率与该国不是成员国时的增长率之间的差异。这种差异是在加入欧元区后的不同时期计算的。问题是,如果该国不是成员,则没有观察到增长率。这是一个“反事实”,因此必须进行估计。

对于此估计,综合控制算法将控制构建为未加入欧元区的国家(“捐助者池”)的加权平均值。权重是如何计算的?通过最小化合成控制的变量 X 和处理单元之间的欧几里得距离,受到权重的约束(每个权重属于区间 [0,1],所有权重的总和为 1)。变量 X 可能不受处理(加入欧元区)的影响。该最小化问题具有具有线性约束的二次目标函数(线性二次最小化问题)。

因此,我们可以说合成控制与处理单元相似,因为两者都具有相似的变量 X(在欧几里得度量意义上)。但由于捐助者池没有接受治疗(没有加入欧元区),加入欧元后合成控制的增长率是反事实的估计。