我看到有人尝试的一个主题是使用 GAN 生成用于监督学习的合成表格数据。也是一种在二元分类中对少数类进行过采样的方法。
对我来说,创建合成数据有点危险。
在实践中,我看到的所有使用 GAN 生成新训练数据的实验都失败了。
背后有什么理论上的原因吗?
我看到有人尝试的一个主题是使用 GAN 生成用于监督学习的合成表格数据。也是一种在二元分类中对少数类进行过采样的方法。
对我来说,创建合成数据有点危险。
在实践中,我看到的所有使用 GAN 生成新训练数据的实验都失败了。
背后有什么理论上的原因吗?
GAN 有许多已知问题。主要有:
用于图像生成的 GAN 已被广泛研究。其他领域,如语音过滤,也被研究过,但没有那么广泛。在其他领域,如文本生成,GAN 并不是很成功。对于通过 GAN 生成表格数据,已发布的工作量很少:medGAN、VeeGAN、ehrGAN、TableGAN、CTGAN。
我认为阻止我们在非图像领域设计更好的 GAN 的主要问题之一是评估。通过图像,您可以观察结果并快速确定它们是否具有良好的质量和多样性。然而,对于其他领域,评估生成数据的质量和多样性并不容易。
我认为现在大多数人都坚持使用经典的过采样方法来生成表格数据。