测试数据与训练数据显着不同

数据挖掘 数据挖掘 数据集
2022-03-02 21:31:14

如果测试数据与训练数据显着不同会有什么风险?

最重要的问题是否与两者有关?

3个回答

主要风险是欠拟合,在明显不同的数据集上训练的模型将很难预测测试集

为了使预测尽可能准确,训练数据应尽可能代表测试数据。训练数据永远不会完全准确,但应该尽可能接近。通常,实现这一目标的最佳方法是尽可能使用更大的训练集,否则使用随机抽样。

如果存在显着差异,那么最大的风险是模型将欠拟合测试数据并且会给你不准确的预测。

您还可以尝试将训练数据拆分为训练集和验证集,以查看模型在将其应用于您的模型之前是如何工作的,并查看有多大的差异。

您的模型在预测准确性方面会有所偏差(欠拟合测试数据集),但这不是问题,因为您可以收集更多数据并微调您的模型,因为您错过了看不见的预测并且与您训练的结果相去甚远,所以从长远来看,您可以涵盖各种输入。或者,如果您的测试输入总是不可预测的,并且您的类别不平衡(癌症检测示例),则仅在主要类别示例上进行训练,并将任何与您所训练的输入不同的输入标记为主要类别。