机器算法验证 - 半连续数据的零膨胀两部分模型 - 吾爱随笔录

半连续数据的零膨胀两部分模型

机器算法验证数据转换面板数据固定效应模型零通胀

2022-04-08 05:57:29

我正在尝试研究公司对某些特定化学品的污染输出的预测因素。我使用的数据有很多 0（即，公司根本没有用这些化学物质污染），然后是连续的，有一条长长的右尾。我已经看到其他人通过在添加 1 后记录因变量来对这些数据进行建模。我的感觉是这是错误的，但我不明白为什么。有人可以解释一下吗？这种方法比我认为我应该做的要简单得多——对半连续数据使用零膨胀的两部分模型——所以如果结果证明只是加 1 并且日志记录是正确的，我会很高兴。

其次，我找到了一个 Stata ado 文件来运行半连续数据的零膨胀两部分模型。有没有办法将固定效应合并到这种类型的模型中？

2个回答

的缺点： $\ln(0+c)$
- $c=1$ 是任意的。通常的值会改变估计值，因此您需要对“最佳”结果进行网格搜索并最终证明该选择的合理性 $c$
- 零质量对协变量的反应可能不同（广泛与密集边缘可能有不同的 DGP）
- ，那么在低端重新转换回自然尺度问题会更糟 $y$
- 有时效果不佳。参见 Duan, N.、WG Manning 等人。“医疗保健需求替代模型的比较” ，商业和经济统计杂志，1:115-126，1983 年的一些例子。（封闭的 JSTOR 链接，兰德工作文件链接）。
没有面板版本tpm。如果计算上可能，我会尝试在面板 id 上使用假人和聚类。我也可能会给xtpoisson, fe robust或xtpqml（用户编写的包装器）一个旋转，将其证明为准 MLE，即使零的数量很大，它在 CS 模拟中也表现良好。

不确定 Stata，但 R 可以运行具有固定效应的零膨胀模型。例如，检查gamlss包和zeroinfl()从pscl包中。

其它你可能感兴趣的问题

上一篇如何从 R 的 coxph 中获取完整模型的 p 值？下一篇设置中的回归（使用 30k 预测因子和约 30 个样本从基因表达预测药物效率）p ≫ Np≫N