我有一个数据集,由一堆预测变量(主要是无界或正实数)和我希望预测的单个响应变量组成。响应通常恰好为零——大约 90% 的时间。我尝试使用标准高斯过程方法以及随机森林对此进行建模。然而,在这两种情况下(尽管在使用随机森林时更是如此),模型似乎处理数据不佳,通常预测非零响应。现在,如果预测的响应实际上非常接近于零,我可以设置一个截止值,低于该值将四舍五入为零,但在许多情况下它们明显非零。
我对解决方案的想法是训练两个模型:一个在整个训练集上训练的分类模型,预测一个变量是零还是非零,一个回归模型只在训练集中的行上训练零响应。然后,我将首先使用分类模型来预测哪些观察的响应恰好为零,然后使用回归模型来预测非零响应的值。
这是解决所描述问题的合理方法吗?这种模型有名字吗?有没有更好的方法来做到这一点?