问题是二分类问题。我的数据集包含多天活动的用户,他们都从 0 类开始,并且在某个活动(这不是输入特征的一部分)之后可以变成 1 类。如果我有 1000 个 0 类用户和 100 个 1 类用户,我将有 1100 个训练实例。
我想要做的是扩展数据,以便对于每个用户的每一天活动,训练集中都有一行。因此,具有 10 天活动的用户 1 在训练数据中将有 10 行,全部属于 0 类,而不是 1 行。用户 2 在 0 类有 10 天,在 1 类有 5 天,将有 15 行而不是 1 行。
这可以为模型提供多倍的示例来学习。我看到的唯一缺点是它会改变 0 类示例与 1 类示例的比率(不确定这是否有问题)。这种方法有什么不可预见的缺点吗?