建立预测模型,带有长右尾的回归

机器算法验证 回归 机器学习 scikit-学习
2022-03-24 20:56:11

我正在尝试为严重偏斜的目标时间序列构建一个回归预测模型。

您可以将目标想象为地震震级或暴雨。大多数时候,我们坐在相对无聊的分布头部,但我们想预测有趣的“极端”事件。

目标值的分布看起来像这样(在带有贝叶斯块大小的直方图中) 目标值的分布

被接近的单独或组合是合法的吗?:

  1. f(log(target))在空间中预测。其中f(x)用于产生零均值、单位方差分布。
  2. 首选非线性(例如,基于树的、具有非线性内核的支持向量回归器)估计器。
  3. 在选择用于学习、验证和测试的样本时:相对过采样目标分布的右尾。

还有什么我应该尝试的吗?

如果它有助于上下文,我正在使用 python 和 sklearn。

1个回答

您提出的两种建模方法在我看来原则上是合法的,但显然最好的模型将来自分析。在对数变换下对数据进行建模(假设你没有零值会填充它)隐含地给你一个非线性模型,所以原则上这是好的。至于拆分数据以进行训练和测试的决定,我建议不要对分布的特定部分进行过采样,而应该明确说明错误的损失函数(也许高端损失更高?)