何时通过图像的翻转和旋转来增强图像数据集?

数据挖掘 训练 方法
2022-03-14 21:53:23

我是机器学习的初学者,所以如果我的问题有点琐碎,我很抱歉。

假设我有一个图像数据集,并且我想对其进行分类,比如使用神经网络。尝试通过翻转和旋转图像来增强我的数据集对我来说是有意义的,以便获得更多的训练观察结果。

在某些时候,我想将我的数据集拆分为一个训练集和一个测试集,也许还想另外细分训练集以进行交叉验证。我的问题是:我什么时候应该用翻转/旋转的图像增强我的数据集?如果我在将数据集拆分为训练和测试样本之前这样做,那么测试样本将包含例如也在训练样本中的观察旋转,所以我觉得它可能被“污染”并且代表测试不足错误。与交叉验证的拆分相同。是否就如何进行达成共识?另外,这是一种有效的方法吗?

1个回答

这些操作应该在训练数据部分执行。我们正在将品种引入训练数据集中。

如果您要进行旋转和翻转数据,然后拆分数据集,则测试数据的旋转图像可能包含在训练过程中。您让模型瞥见了稍后要测试的目标,这违背了在新的看不见的数据上测试它的目的。

交叉验证和测试数据应该是模型工作的真实数据示例。假设您的测试数据在现实生活中定期翻转(例如,汽车面向不同的方向),那么也许这是合理的,但测试数据的那些翻转图像不应该包含在训练过程中。