如何将静态变量合并到 ML

数据挖掘 机器学习 特征工程
2022-02-22 22:55:41

我必须建立一个基于 ML 的模型,在该模型中,我使用来自 50 个站点的多年每日观测来预测复杂地形中的降水。除了十几个连续变量外,预测变量还包括三个反映地形的变量:高程、坡度和坡向。由于这三个变量对于单个站点没有变化,我怀疑模型在训练期间是否会依赖这些变量(我还没有开始分析,仍在编译数据框)。

  1. 我的担忧有效吗?

我正在考虑编写一个函数,该函数将在数据框中的每个观察值随机改变这三个静态变量,幅度很小,例如 +-2%。

  1. 这种方法背后是否有重大警告?
1个回答

您有 3 个变量引用特定的站点。

在你的训练集中,你只有一个站?-- 如果是,那么最好是放弃它们

在你的训练集中,你有更多吗?- 然后他们可以有不同的价值,所以离开他们。

如果你的训练集有一个站,然​​后在你的测试集中你有另一个站——删除它们。您的模型将无法向他们学习。但是很有可能您的模型中的数据集发生了变化,并且它不会表现良好。