合并 2 个数据集

数据挖掘 Python 数据集 熊猫 数据 数据清理
2022-02-24 21:18:23

在给定的任务中,他们为我们提供了 2 个数据集,即测试和训练数据集。所以,我想知道我们是否可以将这 2 个数据集合并到 1 个数据帧中并删除重复项。你会建议我遵循这种方法还是会产生像过度拟合这样的不利影响?

1个回答

永远不要在训练过程中使用测试数据。之所以有测试数据,是因为您根据模型从未见过的数据测试模型性能。通过这样做,您“模拟”了经过训练的模型“投入生产”的情况,以便您可以很好地了解它的工作情况。

在大多数情况下,模型能够重现它在训练期间看到的内容。因此,当您根据模型在试验期间看到的数据测试模型时,模型性能通常会“相当好”。但是,显示“新”数据(在训练期间未看到,即“测试数据”)通常可以很好地了解模型的泛化程度(使用“新”数据)。

仅在训练数据上训练您的模型,对两个数据(训练/测试)进行预测,然后比较两个结果。我想你会在模型性能方面发现不同的结果。