如何在测试集中使用外部数据集

数据挖掘 机器学习 训练
2022-02-18 17:45:44

我对在时间序列预测的测试集中使用 gdp 率、失业率等外部数据集有疑问。这些数据集是历史的,可以与训练集一起使用,但如何与测试集一起使用呢?我们需要先预测它,然后在测试集上使用它还是有更好的方法来做到这一点?

2个回答

一般的想法是你应该在你的训练集、测试集和预测集上使用相同的数据。对于经济数据,这可能很棘手:

  • 在您的训练集中,您需要获取在给定时间可用的数据。这可能很棘手,因为大多数情况下,此类经济数据可以在首次发布后很长时间内进行修改。例如,在我的国家,我认为 GDP 可以在首次发布后长达 3 年进行修订。例如,如果您的训练/测试集中有 2015 年的实例,您需要获取 2015 年可用的数据,而不是 2018 年可能发生的修订数字。

  • 在您的测试集中,对于一般预测,实际值可以是对当前正在发生的事情的估计(临近预报),因此您必须确保您的数据源是一致的。有时使用临近预报技术来获取当前值(例如,要了解酒店部门的活动,您可以查看 booking.com # of reservation ... 等)。这些技术与通常用于获得最终数字的技术(财政申报的集合)完全不同。理想情况下,您必须确保方法在训练、测试和预测集之间保持一致。不应该完全排除使用其他方法来获取数据进行预测,而应该带有非常强烈的警告。

如果数据有标签,任何数据都可以在测试集中使用。

测试集中经常使用外部数据来查看模型对看不见的数据的泛化程度。