我必须建立一个基于 ML 的模型,在该模型中,我使用来自 50 个站点的多年每日观测来预测复杂地形中的降水。除了十几个连续变量外,预测变量还包括三个反映地形的变量:高程、坡度和坡向。由于这三个变量对于单个站点没有变化,我怀疑模型在训练期间是否会依赖这些变量(我还没有开始分析,仍在编译数据框)。
- 我的担忧有效吗?
我正在考虑编写一个函数,该函数将在数据框中的每个观察值随机改变这三个静态变量,幅度很小,例如 +-2%。
- 这种方法背后是否有重大警告?
我必须建立一个基于 ML 的模型,在该模型中,我使用来自 50 个站点的多年每日观测来预测复杂地形中的降水。除了十几个连续变量外,预测变量还包括三个反映地形的变量:高程、坡度和坡向。由于这三个变量对于单个站点没有变化,我怀疑模型在训练期间是否会依赖这些变量(我还没有开始分析,仍在编译数据框)。
我正在考虑编写一个函数,该函数将在数据框中的每个观察值随机改变这三个静态变量,幅度很小,例如 +-2%。
您有 3 个变量引用特定的站点。
在你的训练集中,你只有一个站?-- 如果是,那么最好是放弃它们
在你的训练集中,你有更多吗?- 然后他们可以有不同的价值,所以离开他们。
如果你的训练集有一个站,然后在你的测试集中你有另一个站——删除它们。您的模型将无法向他们学习。但是很有可能您的模型中的数据集发生了变化,并且它不会表现良好。