我有一个时间序列数据集,它显示了组织每天收到的关于特定问题的投诉数量。我还有许多其他同期的时间序列(主要是天气、化学等环境变量),这可能有助于解释投诉的模式。
因此,我的响应变量是离散的(投诉数量),而我可能的解释变量都是连续的。根据一位同事的建议和一些谷歌搜索,似乎某种泊松回归模型在这里应该是合适的。但是,我遇到了一些困难:
我的计数数据的方差 (0.76) 大于平均值 (0.33)。我认为这表明我的响应变量“过度分散”,因此泊松回归不合适?
我的计数数据以零为主(即大多数日子没有抱怨)。看来这可能是泊松回归的问题?
几乎我所有的时间序列(响应变量和解释变量)都是自相关的。
我的一些解释变量是相互关联的。例如,河流流量与降雨等密切相关。
如果我正确理解了我一直在阅读的内容,那么所有这些都表明我需要做一些比“标准”泊松回归更复杂的事情。
我的问题:请问,有意义地分析此类数据的最简单方法是什么?我有哪些选择,我应该研究哪些技术?我一直在阅读一些关于计数数据的 Box-Jenkins 模型(?),但我已经超出了我的深度。还有什么更直接但仍然严格的吗?
最终目的是就可能导致问题的因素提出一些建议。如果我最终可以说“解释变量 x、y 和 z 似乎与投诉数量显着相关”或“解释变量的组合不能充分解释投诉的模式”,那将很有用.