在 ML 模型的输入中使用常量

数据挖掘 机器学习 分类 机器学习模型
2022-02-18 04:15:25

我目前正在构建一个二元分类器。

我的输入是 32 个时间步长的序列。

输入的某些时间步长将是恒定的(例如:t-0 将始终为 0,t-5 将始终为 9,等等)

将这些时间步长作为特征添加到模型中是否有意义?我认为不是因为:模型必须注意这些特征,它们会在模型中添加一种噪声/偏差——因为没有任何新信息可以从它们中获得。我是否正确地考虑了这一点?

1个回答

您正在正确地考虑这一点。如果数据在您的结果之间没有变化,则不需要包括在内。

话虽如此,如果您使用趋势分解等时间序列技术进行特征工程,那么更改数据结构可能会使解释复杂化(即:如果您删除了数据点,什么是移动平均线?)。

鉴于此,我会说您不应该将这些怪癖构建到您编写的代码中,并且您应该尽可能保持其通用性,除非绝对必要。这与在不重复自己的情况下编写“DRY”代码的概念有关。

个人意见:分类器和软件一样,尽可能不要对数据做出假设。这使您有更好的机会重用或共享它。