实践中的偏差方差权衡 (CNN)

数据挖掘 过拟合 方差 偏见
2021-09-17 06:36:51

我首先在我的数据集上训练了一个 CNN,得到了一个看起来有点像这样的损失图: 低偏差

橙色是训练损失,蓝色是开发损失。正如你所看到的,训练损失低于开发损失,所以我想:我有(合理的)低偏差和高方差,这意味着我过度拟合,所以我应该添加一些正则化:dropout、L2 正则化和数据增强。之后,我得到这样的情节:低方差

现在我们看到方差减少了,偏差增加了。该模型的过度拟合较少,这是正确的吗?但是,我实际上会选择第一个模型,因为它的验证损失较低。

我的问题是:在大多数文献中,对于偏差方差权衡,它们显示验证损失在上升,但在我的实验中并非如此,那么这些模型实际上是否过度拟合?一旦训练损失低于验证损失,或​​者仅当验证损失回升时,您是否会过度拟合?如果验证损失较低,是否可以选择具有高方差的模型?

在一个类似的问题上找到了这个答案,但是如果您的问题如此复杂以至于您找不到可以过度拟合然后正确规范化架构的架构怎么办?我可以找到一个使训练损失接近(r)为零的架构,但是我不能真正添加​​足够的 dropout 来确保方差很低。此外,如果我添加增强,我的验证损失也会增加。最后答案让我感到困惑,回答者在谈论训练集的方差?但是偏差不总是与训练损失和开发损失的方差有关吗?

还是我只是误解了信息,我应该根据数据集大小而不是时期数来绘制函数来确定我是否过度拟合?

1个回答

通常,训练损失低于验证损失。这并不表示任何过度拟合。事实上,当你的训练损失高于验证损失时,它甚至是可疑的。另一方面,在提高训练集的同时验证准确性的恶化肯定会告诉你你过拟合了。

一般来说,过拟合意味着不好的泛化,对训练集的记忆,而不是学习数据背后的通用概念。除了训练期间的指标之外,您还可以通过在来自相似但不相同的域/分布的外部数据集上尝试您的模型来找到它。非常差的准确性将表明可能被与训练集非常相似的验证集隐藏的过度拟合。