半连续数据的零膨胀两部分模型

机器算法验证 数据转换 面板数据 固定效应模型 零通胀
2022-04-08 05:57:29

我正在尝试研究公司对某些特定化学品的污染输出的预测因素。我使用的数据有很多 0(即,公司根本没有用这些化学物质污染),然后是连续的,有一条长长的右尾。我已经看到其他人通过在添加 1 后记录因变量来对这些数据进行建模。我的感觉是这是错误的,但我不明白为什么。有人可以解释一下吗?这种方法比我认为我应该做的要简单得多——对半连续数据使用零膨胀的两部分模型——所以如果结果证明只是加 1 并且日志记录是正确的,我会很高兴。

其次,我找到了一个 Stata ado 文件来运行半连续数据的零膨胀两部分模型。有没有办法将固定效应合并到这种类型的模型中?

2个回答
  1. 的缺点ln(0+c)

    • c=1是任意的。通常的值会改变估计值,因此您需要对“最佳”结果进行网格搜索并最终证明该选择的合理性c
    • 零质量对协变量的反应可能不同(广泛与密集边缘可能有不同的 DGP)
    • ,那么在低端重新转换回自然尺度问题会更糟y
    • 有时效果不佳。参见 Duan, N.、WG Manning 等人。“医疗保健需求替代模型的比较” ,商业和经济统计杂志,1:115-126,1983 年的一些例子。封闭的 JSTOR 链接兰德工作文件链接)。
  2. 没有面板版本tpm如果计算上可能,我会尝试在面板 id 上使用假人和聚类。我也可能会给xtpoisson, fe robustxtpqml(用户编写的包装器)一个旋转,将其证明为准 MLE,即使零的数量很大,它在 CS 模拟中也表现良好。

不确定 Stata,但 R 可以运行具有固定效应的零膨胀模型。例如,检查gamlss包和zeroinfl()pscl包中。