如何结合分类器的预测来解决两个不同的问题?

数据挖掘 分类 特征工程 阶级失衡 特征构造 合奏
2022-03-10 13:01:53

我正在研究一个分类问题,以预测货物是否会迟到。

我会说分类器目前在预测正类方面表现平庸。但目标是改进它。

然而,经过一番分析,我发现在大多数FN中出现了一个重要的组成部分(海关)作为延迟发货的原因。

目前,我没有直接与海关相关联并在模型中使用的功能。此外,我认为由于我们要运送的产品,定制过程可能会有所不同。

我最初的问题是在装运级别,因此我不得不排除装运中的产品。但是,现在我想包括产品。这是多对多的关系-> 装运可以有多个产品,反之亦然。

以下是我的想法:

除了原始预测器之外,还有一个单独的预测器来预测装运中的产品是否会迟到/不是基于计划的海关天数。

这就是我苦苦挣扎的地方,如果这是一种正确的方法,我该如何整合两个模型的预测以得出一个预测为迟到或不迟到?

除此之外,我需要了解是否有另一种方法来解决这个问题?

1个回答

我的直觉是尝试将有关产品的信息直接集成到原始模型中。通常,货物中可能的产品可以表示为布尔特征(一种热编码),但是如果有太多不同的产品,这部分可能需要一些特征工程:

  • 简单的选项:只有一小部分代表产品类型的功能(我假设不是导致自定义延迟的特定产品,而是产品类型)
  • 高级选项:特征选择/提取以减少特征数量

通常,联合模型(一次处理所有信息的单个模型)往往表现更好,特别是因为在其他选项中,第一个模型中的错误会传播到第二个模型。此外,两个模型选项不允许第二个模型利用第一个模型的任何特定功能。

请注意,这只是我的直觉,我可能是错的。

旁注:可能已经考虑到这一点,但我猜货物的价值也是海关延误的一个重要因素。