在维度减小 DNN 大小的方向上是否有任何工作?

数据挖掘 预测建模 机器学习模型 监督学习
2022-02-19 20:51:35

我说的是一个场景,你首先训练一个“巨大的”神经网络,然后尝试在不牺牲大部分准确性的情况下缩小它。我不是在谈论权重、偏差等的量化。我的想法来自物理学中粗粒度分子动力学的角度。这就像平滑能源景观。在神经网络上下文中,我们也有一个“能量景观”(损失景观?)。那么有没有我可以查到的做过类似事情的作品?

1个回答

您正在寻找的东西称为知识蒸馏,这意味着通常通过称为教师-学生的训练范式来学习大型模型和较小模型的行为。

这很简单。想象一下,您有一个巨大的模型,您可以通过任何方式对其进行训练。该模型可以以应有的方式为您预测输入。现在你想把这个巨大的模型缩小为一个更小的模型。

您可以将数据提供给该模型并获取所有输出。那么这对(x,y)s 可以用作“标签数据”来训练较小的模型(对吗?)。

解释很简单,因为我觉得它很清楚(特别是如果你有 ML 的背景)。如果不是,请发表评论,以便我用 Python 中的真实演示更新我的答案。