数据挖掘 - 使用 GAN 生成合成表格数据以改进监督学习 - 吾爱随笔录

数据挖掘机器学习无监督学习监督学习甘生成模型

2022-03-07 05:31:27

我看到有人尝试的一个主题是使用 GAN 生成用于监督学习的合成表格数据。也是一种在二元分类中对少数类进行过采样的方法。

对我来说，创建合成数据有点危险。

在实践中，我看到的所有使用 GAN 生成新训练数据的实验都失败了。

背后有什么理论上的原因吗？

1个回答

GAN 有许多已知问题。主要有：

用于图像生成的 GAN 已被广泛研究。其他领域，如语音过滤，也被研究过，但没有那么广泛。在其他领域，如文本生成，GAN 并不是很成功。对于通过 GAN 生成表格数据，已发布的工作量很少：medGAN、VeeGAN、ehrGAN、TableGAN、CTGAN。

我认为阻止我们在非图像领域设计更好的 GAN 的主要问题之一是评估。通过图像，您可以观察结果并快速确定它们是否具有良好的质量和多样性。然而，对于其他领域，评估生成数据的质量和多样性并不容易。

我认为现在大多数人都坚持使用经典的过采样方法来生成表格数据。

其它你可能感兴趣的问题