过拟合时精度不高

数据挖掘 决策树 过拟合
2022-03-07 20:40:31

给定一个数据集和一个可以任意深度的决策树,如果你用所有数据集训练树,然后用相同的数据集对其进行测试,你得到的准确率不是 100%,你能说出什么你的数据?当你让树尽可能多地过度拟合时,人们会期望一个完美的准确度,那么准确度上的差异是什么?

1个回答

模型可能无法达到完美性能的原因有很多:

  • 正如 Oxbowerce 在评论中提到的那样,除了树深度之外,还有几个超参数可能会迫使模型进行泛化:每个叶子的最大实例数、修剪等。甚至有可能某些实现应用了一些泛化方法而不提供参数来控制它们。
  • 数据集可能包含相互矛盾的证据,即具有相同特征值但标签不同的几个实例。这在分类数据中更为常见,但也可能在数值数据中发生。

有目的地过拟合模型是一个有趣的实验,但一般来说 ML 模型旨在从数据中进行泛化,因此它们不仅仅用于存储训练集中的所有数据(除了k-NN等惰性学习器)。所以不能保证他们能够准确地完全表示整个训练数据。