如果训练集中包含“A”,假设我有训练集和验证集。'A' 不应该包含在验证集中?还是有些可以?
验证和训练集应该是不同的文件吗?
数据挖掘
机器学习
训练
计算机视觉
2022-03-01 13:54:38
2个回答
验证集基本上是为了了解您的模型在过拟合和欠拟合方面的表现,并为您的算法找到最佳的超参数集。如果您在验证集上使用相同训练数据的某些部分,那么这个假设将不成立。因此,建议将您的数据集拆分为训练/验证/测试集,而不会有任何数据重叠。
在验证集和训练集之间存在重叠示例的问题是使用验证集的目的是理想地调整模型的超参数,并且具有重叠示例意味着由于您的模型已经在此重叠数据上进行了训练,它会与在验证集中看到完全看不见的数据的理想情况相比,理想情况下预测正确输出的概率更大。
最好将数据拆分为完全不相交的训练、验证和测试集。最好将验证集视为一种测试集来调整超参数。最后,一旦你对训练集和验证集的表现感到满意,你应该只检查一次测试集的表现,以了解它在完全看不见的数据下的表现。
但是,在某些情况下,您可以偏离此标准格式,例如在处理时间序列数据时。
当您使用时间序列数据时,最新数据可能会捕获最相关的信息,因此将它们包含在训练数据中更为谨慎。因此,更谨慎的决定是选择前滚分区。
Roll-Forward Partitioning:我们从一个较短的训练周期开始,然后逐渐增加它,在每次训练迭代中,我们在当前训练周期上训练它,并让它预测下一个数据区间。这将需要更多的训练时间,但它模仿了我们在部署期间会做的事情,我们希望定期训练我们的模型以使其保持最新状态。
您可以在此处的此问题中找到有关为时间序列模型拆分数据的更多信息。
其它你可能感兴趣的问题