表格/结构化数据的数据增强解决方案

数据挖掘 机器学习 数据科学模型
2022-02-17 14:00:42

是否有用于表格/结构化数据(具有数字和分类特征)增强的可靠库或方法?你能分享一些吗?

基本上我相信发明/增加更多数据可以帮助提高模型性能。

2个回答

一般来说很难,因为你不知道数据的联合分布,更不用说与标签的联合分布了——否则你就不需要分类器了。否则,您将无法自信地采样新的有效实例。

在图像的情况下,这很“容易”,因为我们肯定知道图像的旋转、剪切或缩放会产生另一个有效的图像,并且我们知道它的标签是相同的。

如果您愿意假设输入空间中具有相同标签的两个实例之间的点也是 a) 有效输入和 b) 具有相同标签,那么您可以应用 SMOTE ( https://imbalanced- learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTE.html)根据该假设生成更多数据。如果该假设是错误的,则会损害性能。

我在Kaggle 获奖解决方案中发现了一种对表格数据进行数据增强的复杂方法:

  1. 通过将每行的某些特征随机替换为其他行来为数据添加噪声。
  2. 使用 DAE(去噪自动编码器)重建数据。