比较 R 中的 2 个时间序列

机器算法验证 r 时间序列 民意调查
2022-03-26 04:57:41

我想知道将使用哪种测试来比较这两个时间序列。

第一个数据集(百分比)是每周调查的结果,该调查询问某人是否有全职工作的“是/否”问题。

第二个数据集是每周销售总额。

我有相同数量的数据点(300)。

关于我可以用这一套做哪些类型的分析有什么建议吗?或者如何分析趋势?

到目前为止,我尝试了 R 中的互相关函数,并发现当调查数据领先 3 周时相关性为 0.39。

我还将 HoltWinters 指数平滑的每日值与每日销售值进行了比较,发现铅 = 12 时的最大相关性为 0.45。

任何建议,将不胜感激。

谢谢

2个回答

有许多不同复杂程度的可能模型。这些包括(一些非常密切相关):

具有滞后变量的时间序列回归

滞后回归模型。另见分布式滞后模型

具有自相关误差的回归

具有自相关误差的传递函数建模/滞后回归

ARMAX 型号

向量自回归模型

状态空间/动态线性模型可以包含自相关和回归组件

因为您的输入序列是 0/1,您可能希望查看具有自相关误差的滞后回归,但要注意季节性和日历效应(如假期)。

如此简单的模型可能看起来像

 Salest=ϕ0+ϕ1Salest1+β3jobt3+β4jobt4+ϵt

或者类似的东西

 Salest=α+β3jobt3+β12jobt12+seasonalt+ηt

其中又是噪声项的一些 ARMA 模型(尽管您可能希望其中有更多的滞后,而不仅仅是一个) - 或各种其他可能性。[上面的季节项没有参数,因为它可能有几个分量,所以有几个参数;将其视为该数据组件模型的占位符。这些模型都可能不够,它们只是为了大致了解简单模型的外观]ηt

您可能还想考虑二进制工作状态变量是否需要模型本身(如果您想预测比涉及它的最小滞后更远,至少考虑那里是否存在任何此类影响可能很重要 - 请参阅传递函数模型,但您必须考虑二进制变量的特殊性质)

一旦你有了一个能够很好地捕捉主要特征的销售模型,你就可以将其视为测试。您应该有足够的数据(看起来像几年)来保存一些数据以进行样本外模型测试和验证。我会从单独考虑销售的特征开始——它是固定的吗?自相关?它是否遇到任何季节性/周期性或日历组件?是否还有其他主要驱动因素需要考虑?

由于您提到 R,请注意tslm包中的函数forecast可以方便地在回归模型中包含季节性或趋势分量。

讨论几乎所有这些主题的书是 Shumway 和 Stoffer时间序列分析及其应用(第 3 版在 Stoffer 的页面上另一个强烈推荐的文本是预测原理和实践,Hyndman 和 Athanasopoulos,在这里,它涵盖了我提到的一些事情(但不是那么多)。

除了@Glen_b 的非常好的回答,我想推荐一些关于时间序列分析的补充信息和资源(主要在!),这可能对你有用。请在我的相关答案中找到它们,如下:关于一般时间序列分析时间序列分类和聚类希望这会有所帮助。R