我应该使用什么模型进行这项研究?

机器算法验证 时间序列 造型
2022-03-28 07:08:37

我目前正在从事一个处理时间序列数据的项目,但我对时间序列分析的经验很少,所以我希望对我应该研究什么样的探索性数据分析技术和模型有一些指导,以便我可以阅读靠我自己。

我有两个每周时间序列(电影销售),其中一个是对照组。感兴趣的时间序列来自一个单独的国家 A,而对照组是其他四个国家的组合。我的研究问题是检查在 A 国发​​生的事件的影响,使用对照作为反事实来表示事件未发生时 A 国的实际电影销售。

我可以使用什么样的探索性数据分析技术,有哪些可能的模型可以让我直接回答这个研究问题?

3个回答

一个例子

如果您对 R 感到满意,您可能需要查看Seatbelts内置于基本 R 分布中的数据集。听起来很相似。像您的问题一样,这包括几个时间序列的计数(前排座椅伤亡)和仅影响其中一个(前排座椅乘客序列)的干预/治疗(实施安全带法)和一堆协变量(季节,汽油价格等)。在帮助页面上,您可以看到微小分析的样子。你会在那里注意到几件事:

要使用计数数据,记录结果通常很有帮助。这使您能够使用比例增加而不是绝对增加,这通常是您想要的。它还允许您伪造对数线性链接,而无需拟合非线性模型。

基本的视觉分析包括建立一些模型,例如在示例中为 ARIMA 模型,该模型是干预前的系列,然后将其向前投影,并将其与情节中治疗中实际发生的情况进行比较。这样做的代码是与ts.plot

时间序列建模

一个简单的线性建模方法(例如您在示例的最后一行看到的)添加了一个干预变量来指示周期、一个季节性分量和一个自回归项来处理自相关。当您满足于非干预变量设置良好时,特别是您已经捕捉到任何季节性成分、圣诞节或周末影响,或者在您的电影销售领域中系统地驱动销售变化而不与干预相关的任何东西您感兴趣,那么您可能希望将您的干预变量解释为因果效应。

在那个简单的分析中,干预会导致平均水平的变化。但是,它可能会产生不同的效果,您希望以不同的方式进行建模。

您还想做什么取决于模型类。对于 ARIMA 建模,基本问题是“平稳性”和 AR、MA 和季节性“顺序”。也可以采用状态空间方法。任何好的时间序列文本都会讨论这些可能性。我非常喜欢Shumway and Stoffer (2006)Commandeur (2007),但有很多不错的选择,还有很多网络资料。

时间序列分析可以很快变得相当复杂,因此首先采用图形探索方法是非常明智的,因此您知道花费多少时间来找出这些更复杂的参数模型是值得的。

回归方法

另一种非时间序列方法是将问题视为回归不连续设计在那里,您可以比较干预两侧的时间段,以了解干预的因果效应。 Morgan and Winship (2007)讨论了这种方法的优缺点。

首先,我会尝试将这两个系列放在一个可比的规模上。例如,您可以查看一段时间内的收入除以电影观众年龄。如果这两个系列在活动之前看起来非常相似,但之后又出现分歧,我会更有信心。

另一种方法可能是差异估计器的差异

要探索数据,您可以使用描述性,并且绘制数据以获得数据的视觉表示和感觉非常重要。听起来回归对你有用,对事件和不同国家使用假人。此外,您可以决定为这些国家/地区提供不同的斜率和截距。最后,对于时间序列数据,要小心违反回归假设,尤其是自相关。祝你好运!