当我们的训练样本数量有限时,为什么需要大型模型?

人工智能 神经网络 过拟合 偏差-方差-权衡
2021-11-03 10:31:21

在 Goodfellow 等人中。他们写的书深度学习第12.1.4章

这些大模型学习了一些功能f(x),但这样做使用的参数比任务所需的参数多得多。仅由于训练示例的数量有限,它们的大小是必要的。

我无法理解这一点。大型模型很有表现力,但如果你在几个例子上训练它们,它们也应该过拟合。

那么,作者所说的正是由于训练示例数量有限而需要大型模型是什么意思?

这似乎违背了在训练数据有限时使用更多偏差的精神。

1个回答

如果您阅读了相关部分。它还说:

当原始模型的大小主要由防止过度拟合的需要驱动时,模型压缩适用。在大多数情况下,泛化误差最低的模型是几个独立训练的模型的集合。评估所有n乐团成员很贵。有时,即使单个模型很大,也能更好地泛化(例如,如果使用 dropout 对其进行正则化)。

这里的关键词(我认为)是辍学。参考书中的 Dropout Learning 被解释为训练模型的集合,模型概率与大型神经网络的特定 dropout 架构的概率相同。因此,这有效地使训练成为训练多个较小的神经网络。根据原作者关于 dropout 的这篇论文,dropout 会阻止协同适应,这实际上意味着您只是在训练神经网络的集合。但这种直觉缺乏任何理论依据。

一篇论文(理解该论文可能需要熟悉 ML 的某些统计思想)声称这是不正确的,并且 dropout 不会减少共同适应,但更有可能减少 dropout 模式的方差。他们为此目的提供了更好的经验和理论依据。因此,实际发生的事情仍有待商榷。

但总的来说,泛化误差上限非常粗略地与神经网络的大小成正比。所以是的,作者的表面价值陈述过于简单化,在一般情况下很可能是错误的。