我想知道这是否是最佳做法。我们是否可以在训练数据中添加噪声以帮助模型“少拟合训练数据”;因此,希望更好地概括新的看不见的数据?
如果我的模型过度拟合训练数据集,向训练数据集添加噪声是否有助于规范机器学习模型
数据挖掘
过拟合
正则化
噪音
2022-02-12 06:26:16
2个回答
是的,添加噪声有助于规范化模型。
众所周知,在训练期间向神经网络的输入数据添加噪声,在某些情况下,可以显着提高泛化性能
从Training with Noise 等效于 Tikhonov 正则化
特别是,添加与数据的自然扰动一致的结构化噪声可以帮助规范化模型。这是一种数据增强形式。
不,添加噪声无助于规范化模型。这不会帮助您的模型更好地泛化到看不见的输入。它可能只会让你的模型表现得更差。您对训练实例所做的任何修改都应该是可学习的。
以图像分类问题为例(猫或非猫的图像):将每张图像中的像素随机转换为白色不会帮助您的模型学习猫的通用特征;随机白噪声不是“可学习”的特征。然而,通过旋转、翻转、裁剪或调整图像的对比度,并将它们添加为新的训练实例,这将迫使模型更能容忍猫的每张图像的差异,从而更好地泛化。
正则化模型的方法有很多,例如线性回归或神经网络中的 l1 或 l2 正则化,还有很多其他模型类型特有的其他方法。
确保您的训练数据尽可能多样化,并使用特定于模型的正则化技术,可能更接近“最佳实践”(尽管我不太喜欢这个术语,因为“最佳实践”经常改变,例如新的正则化技术,优化等)。
更新:
我已经尝试在输入特征中添加高斯噪声,特别是在过度拟合神经网络的情况下,这可以帮助模型泛化。为此,也可以直接在神经网络中添加 GaussianNoise 层,如此处的 TensorFlow 文档中所示。
其它你可能感兴趣的问题