我正在使用每日粒度数据进行时间序列预测,我有一个假设性问题。时间序列预测的最佳预测窗口是多少?假设我们有 1 年的历史数据,那么最佳预测窗口应该是多少。是否有相同的文献或经验法则?
时间序列的最佳预测窗口
使用“窗口”来表示“预测未来多远”是非标准用法。“窗口”更频繁地指的是过去系列的子样本,例如在三个周期窗口上采用滚动均值。从答案中可以看出,这种用法让专家感到困惑。我建议您使用更常见的术语“预测范围”。
至于您的问题:没有“最佳”预测范围。您将所需的范围用于使用您的预测的后续流程。例如,我对超市进行预测。
有时我对未来五天的预测感兴趣(当从配送中心生成补货订单时,因为每个订单通常只需要满足三到五天的需求)。
有时我对两周感兴趣(在补货方面做一些更花哨的优化时)。
有时我对三个月感兴趣(在策划促销活动、降价和营销时,要通知供应商)。
正如@Aksakal 所说,有时您必须满足规定某个预测范围的法规。
人口预测通常会使用数十年的预测范围。
气候预测可以展望几个世纪。
在每种情况下,您都需要针对特定范围的预测来支持您今天的决策。(提前两年的气候预测不会帮助你今天制定政策。)预测超出你需要的范围是没有用的。(超市经理不会对两年前的预测感兴趣。零售商的中央战略和规划部门很可能会感兴趣。)
所以:根据你将预测用于什么来决定。
我认为没有最佳的预测范围。当然,您可以谈论最大视野,这取决于领域和基础过程。再说一次,没有一般的经验法则。
例如,在金融领域的某些应用中,例如投资组合的市场风险价值,监管机构规定根据 12 个月的数据提前 1 天或 10 天生成 99% 置信 VaR 数。VaR本质上是损益(或收益)分布的尾部。在这方面,VaR 是一种预测。
在许多经济应用中,我们有年度、季度、月度和每周的季节性。显然,您无法用一年的数据估计年度和季度的季节性调整。此外,我们更喜欢拥有至少一个商业周期的数据,即包括繁荣/萧条时期,这意味着多年的数据。因此,在这些具有一年历史的应用程序中,您的预测范围仅限于几个月,超出此预测是有问题的。
一个很好的类比是外推。当您进一步超出数据点时,外推变得不可靠。
一年的日常数据不足以估计/识别年度重复活动。描述星期几的结构就足够了,但即便如此,假期效应也会扭曲它们。正如@stephan-kolassa 指出的那样,首选术语是预测范围而不是“窗口”,但我确实理解您所说的窗口是什么意思。就最佳“前方窗口”(预测范围)而言,没有“最佳”,但可能存在不断增加的不确定性,这在选择适当的“窗口”或“地平线”时可能是一个缓解因素。通常这是由预测活动的目标/需求设定的。当然,如果不考虑每周/每月/假期的影响,任何预测都可能处于危险之中。
正如@IrishStat 所说,如果它适应趋势、活动和季节性,一年的每日数据就足够了。然而,一些趋势(和/或)季节性甚至可能无法通过每日频率捕捉到。他们可能需要每分钟捕获的数据来解释影响。
因此,经验法则是,如果捕获的数据频率具有可以解释您的问题陈述(或目标)的趋势和季节性,那么这将是理想的窗口。
快速搜索返回了 Atsushi 等人关于具有时变参数的样本外预测的窗口选择的这篇文献。; 他们讨论了一种选择用于预测的估计窗口大小的新方法。
觉得你可能会感兴趣,所以附上。