是否有用于表格/结构化数据(具有数字和分类特征)增强的可靠库或方法?你能分享一些吗?
基本上我相信发明/增加更多数据可以帮助提高模型性能。
是否有用于表格/结构化数据(具有数字和分类特征)增强的可靠库或方法?你能分享一些吗?
基本上我相信发明/增加更多数据可以帮助提高模型性能。
一般来说很难,因为你不知道数据的联合分布,更不用说与标签的联合分布了——否则你就不需要分类器了。否则,您将无法自信地采样新的有效实例。
在图像的情况下,这很“容易”,因为我们肯定知道图像的旋转、剪切或缩放会产生另一个有效的图像,并且我们知道它的标签是相同的。
如果您愿意假设输入空间中具有相同标签的两个实例之间的点也是 a) 有效输入和 b) 具有相同标签,那么您可以应用 SMOTE ( https://imbalanced- learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTE.html)根据该假设生成更多数据。如果该假设是错误的,则会损害性能。
我在Kaggle 获奖解决方案中发现了一种对表格数据进行数据增强的复杂方法: