我正在建立一个数据集分类模型,该数据集是通过记录系统在 2 年的时间段内的行为而收集的。该模型将在同一系统中实时使用。
现在我正在使用整个数据集(2 年)来构建我的分类器,但我怀疑这可能不是正确的方法。由于我正在尝试实时建模系统的行为,因此与系统的当前环境相比,数据集中的旧数据点可能变得无关紧要或没有信息(例如,系统输入的分布随时间急剧变化)。
我的问题是如何确定数据集的哪些部分用于训练,例如过去 1.5 年而不是全部 2 年。有没有一种统计方法可以帮助我确定特定时间段没有帮助或可能损害模型正确分类最近的数据点?