我是机器学习的初学者,所以如果我的问题有点琐碎,我很抱歉。
假设我有一个图像数据集,并且我想对其进行分类,比如使用神经网络。尝试通过翻转和旋转图像来增强我的数据集对我来说是有意义的,以便获得更多的训练观察结果。
在某些时候,我想将我的数据集拆分为一个训练集和一个测试集,也许还想另外细分训练集以进行交叉验证。我的问题是:我什么时候应该用翻转/旋转的图像增强我的数据集?如果我在将数据集拆分为训练和测试样本之前这样做,那么测试样本将包含例如也在训练样本中的观察旋转,所以我觉得它可能被“污染”并且代表测试不足错误。与交叉验证的拆分相同。是否就如何进行达成共识?另外,这是一种有效的方法吗?