我一直试图理解这种滑动窗口技术,但无济于事,而且我真的不确定我将如何实现它。
我的数据集:我有一年的电力负荷每小时值(超过 8700 个数据点)- 下图。我将把数据集分成一个训练集(1 月 1 日到 9 月 30 日)和一个测试集(10 月 1 日到 12 月 31 日)。
我将使用监督学习技术,例如回归树和随机森林(基本上是 scikit learn 中可用的任何东西),在训练集上训练它们,然后在测试集上进行预测。
我知道我需要使用历史已知值作为输入特征来输入模型。结果我创建了“Load_lagN”。
我是否正确地说因为我创建了 10 个滞后变量 (Xt-1 到 Xt-10),这相当于使用大小为 10 的滑动窗口?
那么我将如何简单地在训练集上训练模型并在不使用滑动模型的情况下对测试集进行预测?
对于滑动窗口模型,这是否假设只有过去的 n 值(在我的情况下为 10)是相关的?
如果我已将我的数据集拆分为训练和测试集,那么在实施这种滑动窗口技术的同时,回归树如何进行训练,然后在测试集中进行预测(我现在将坚持提前一步预测)?
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html#sklearn.model_selection.TimeSeriesSplit 我遇到过这种方法 - TimeSeriesSplit - 这是我需要用于滑动窗口技术还是它只是一个交叉验证器吗?
我对滑动窗口方法的理解:如下图所示,我使用 10:00 到 19:00 的值来预测 20:00 的值,移动窗口以便现在包含这个新值,然后预测 21:00 的值。这种情况一直在发生,直到我用尽了训练集。然后我做出预测。
你怎么认为?
