使用 GAN 生成合成表格数据以改进监督学习

数据挖掘 机器学习 无监督学习 监督学习 生成模型
2022-03-07 05:31:27

我看到有人尝试的一个主题是使用 GAN 生成用于监督学习的合成表格数据。也是一种在二元分类中对少数类进行过采样的方法。

对我来说,创建合成数据有点危险。

在实践中,我看到的所有使用 GAN 生成新训练数据的实验都失败了。

背后有什么理论上的原因吗?

1个回答

GAN 有许多已知问题。主要

  • 缺乏收敛性。
  • 当鉴别器“太好”时梯度消失,导致生成器停滞。
  • 模式崩溃:生成样本的多样性往往非常低,总是生成相同的值。

用于图像生成的 GAN 已被广泛研究。其他领域,如语音过滤,也被研究过,但没有那么广泛。在其他领域,如文本生成,GAN 并不是很成功。对于通过 GAN 生成表格数据,已发布的工作量很少:medGANVeeGANehrGANTableGANCTGAN

我认为阻止我们在非图像领域设计更好的 GAN 的主要问题之一是评估。通过图像,您可以观察结果并快速确定它们是否具有良好的质量和多样性。然而,对于其他领域,评估生成数据的质量和多样性并不容易。

我认为现在大多数人都坚持使用经典的过采样方法来生成表格数据。