处理回归模型中的差距

数据挖掘 回归 分配 方法
2022-03-14 21:17:34

我正面临一个回归问题,我应该预测一些火车的延误。但是,有一些特殊的特殊性:火车在延误超过 10 分钟后才被视为延误(否则延误为 0)。因此,目标的分布看起来像一个正态分布,但在 0 处有一个峰值。

在此处输入图像描述

我尝试了不同的方法来解决问题。

第一种方法 我在原始数据上拟合了一些回归器,但是在 [0,10] 区间中有很多不合适的预测。

第二种方法 我尝试制作两个模型:一个预测火车延迟的概率,另一个预测预期的延迟。我的模型的最终结果是两个模型的输出相乘。我遇到的问题是得到的 RMSE 比第一个模型还要差。我怀疑这是由于错误分类的巨大成本造成的。

我想知道是否有标准的方法来处理这些问题,以及我已经做了哪些改进。

1个回答

你可以看看“跨栏模型”。这些类型的模型是一个两阶段模型,您首先预测火车是否会延误(分类),如果延误,您预测延误(回归,可能是泊松)。我想这类似于你的第二种方法。但是,您可以看看标准障碍模型是否可以帮助您完成任务。

或者,您可以查看能够捕获高度非线性数据生成过程的广义加法模型。GAM 可能会拾取您绘制的成束分布。

如果您有数据,请确保将火车在上一站的延误包括在内,以解释延误的“前馈”。总体列车延误通常遵循类似“马尔科夫”的模式。

“统计学习简介”中的第 7.4 章(及以下)更详细地介绍了 GAM。https://www.statlearning.com/