扩展训练集的潜在问题

数据挖掘 训练 特征工程 特征提取 特征构造
2022-02-18 21:10:05

问题是二分类问题。我的数据集包含多天活动的用户,他们都从 0 类开始,并且在某个活动(这不是输入特征的一部分)之后可以变成 1 类。如果我有 1000 个 0 类用户和 100 个 1 类用户,我将有 1100 个训练实例。

我想要做的是扩展数据,以便对于每个用户的每一天活动,训练集中都有一行。因此,具有 10 天活动的用户 1 在训练数据中将有 10 行,全部属于 0 类,而不是 1 行。用户 2 在 0 类有 10 天,在 1 类有 5 天,将有 15 行而不是 1 行。

这可以为模型提供多倍的示例来学习。我看到的唯一缺点是它会改变 0 类示例与 1 类示例的比率(不确定这是否有问题)。这种方法有什么不可预见的缺点吗?

1个回答

一个问题是您插入了相关的数据点。来自同一用户的不同日期(可能)具有一些来自不同用户的日期没有的潜在相关性。这些相关性可能与分类任务相关,模型可能会学习它们,而不是学习相关特征。

这并不意味着这是一件坏事。数据增强是一回事。例如,在图像上训练诸如 CNN 之类的模型时的一种常见做法是通过旋转/缩放初始图像来执行数据增强。

但是,请确保您不要触摸验证数据。数据增强是在训练验证拆分之后执行的。验证数据应尽可能“原始”。您可以通过这种方式对其进行测试,看看它如何影响模型的性能。