我正面临一个回归问题,我应该预测一些火车的延误。但是,有一些特殊的特殊性:火车在延误超过 10 分钟后才被视为延误(否则延误为 0)。因此,目标的分布看起来像一个正态分布,但在 0 处有一个峰值。
我尝试了不同的方法来解决问题。
第一种方法 我在原始数据上拟合了一些回归器,但是在 [0,10] 区间中有很多不合适的预测。
第二种方法 我尝试制作两个模型:一个预测火车延迟的概率,另一个预测预期的延迟。我的模型的最终结果是两个模型的输出相乘。我遇到的问题是得到的 RMSE 比第一个模型还要差。我怀疑这是由于错误分类的巨大成本造成的。
我想知道是否有标准的方法来处理这些问题,以及我已经做了哪些改进。
