具有(自相关)时间序列的泊松回归

机器算法验证 回归 时间序列 计数数据 泊松回归 盒子詹金斯
2022-03-22 05:39:32

我有一个时间序列数据集,它显示了组织每天收到的关于特定问题的投诉数量。我还有许多其他同期的时间序列(主要是天气、化学等环境变量),这可能有助于解释投诉的模式。

因此,我的响应变量是离散的(投诉数量),而我可能的解释变量都是连续的。根据一位同事的建议和一些谷歌搜索,似乎某种泊松回归模型在这里应该是合适的。但是,我遇到了一些困难:

  1. 我的计数数据的方差 (0.76) 大于平均值 (0.33)。我认为这表明我的响应变量“过度分散”,因此泊松回归不合适?

  2. 我的计数数据以零为主(即大多数日子没有抱怨)。看来这可能是泊松回归的问题?

  3. 几乎我所有的时间序列(响应变量和解释变量)都是自相关的。

  4. 我的一些解释变量是相互关联的。例如,河流流量与降雨等密切相关。

如果我正确理解了我一直在阅读的内容,那么所有这些都表明我需要做一些比“标准”泊松回归更复杂的事情。

我的问题:请问,有意义地分析此类数据的最简单方法是什么?我有哪些选择,我应该研究哪些技术?我一直在阅读一些关于计数数据的 Box-Jenkins 模型(?),但我已经超出了我的深度。还有什么更直接但仍然严格的吗?

最终目的是就可能导致问题的因素提出一些建议。如果我最终可以说“解释变量 x、y 和 z 似乎与投诉数量显着相关”或“解释变量的组合不能充分解释投诉的模式”,那将很有用.

2个回答

我遇到了类似的问题,并被告知参考Benjamin Kedem 和 Konstantinos Fokianos的时间序列分析回归模型的第 4 章。我还没有开始消化这本书,但据我所知,它看起来非常相关(尽管相当技术性)。

我还想知道这是否可以在具有 Poisson 系列、日志链接功能和Newey-West 标准错误的 GLM 框架中处理。这是 Stata 中的一行代码(在 tsseting 数据之后),在其他包中可能相当可行。这是James Hardin 的旧 Stata Technical Bulletin 文章的链接,其中包含概率、logit 和泊松的方差公式。也许其中一位时间序列专家可以评论这是否是一个糟糕的主意。

  1. 使用负二项式回归来处理过度离散。
    在 Stata 中,这是nbreg.
  2. 使用零膨胀负二项式回归,它处理过多的零。
    在 Stata 中,这是zinb.
  3. & 4. 您可以尝试
    在 Stata 中正交化自相关变量,这是orthog var1 var2 var3, gen(newvar1 newvar2 newvar3)