如何分析重复测量数据进行预测?

数据挖掘 机器学习 神经网络 分类 回归 统计数据
2022-02-17 21:58:14

在我的工作中,我们收集产品的销售数据。我们有一组与我们开展业务的一级客户(我们称该组为千斤顶)。然后这些千斤顶将我们的产品出售给最终客户(我们称该组为玫瑰)。

这些销售数据包含产品、产品类型、细分市场(如 APAC、EMEA 等)、请求数量(按千斤顶)、订购数量(按千斤顶)、成本价(我们对千斤顶的销售价格)、收入(我们的基于要求的数量和价格的预期收入),采购订单日期,售价(千斤顶售价为玫瑰)。

请注意,订单请求的变量在其自身之前被捕获(在初始协商期间),但只是附加到此 csv

现在,有了这些数据,我们的业务目标是增加我们的收入(这意味着千斤顶预订的订单数量(让他们把它卖给玫瑰)应该很高)。

但是,我们实时看到请求的订单数量和预订的订单数量之间存在巨大差异。

因此,如果我们可以提前预测订单预订数量,并且如果发现订单数量较少,我们可以确保我们不会过度生产或跟进千斤顶来下更多订单(或知道他们为什么不下订单的原因)预订足够的订单)。

我应该为此做线性回归吗?但我的数据包含重复测量。意思是,来自杰克组的客户可以出现多次。意思是,一旦他出售了产品 A,其中请求的订单和预订的订单类型匹配(差异较小),但同一客户会出售产品 B,其中请求的订单和预订的订单之间的差异非常大(影响我们的收入和不必要的积压我们的库存)。

线性回归可以用于重复测量吗?

如您所见,每个客户可能有也可能没有多条记录。那么,哪种算法更适合这种情况呢?

如果您认为这个问题必须以不同的方式提出,请告诉我

1个回答

这是一个相当复杂的问题,当然有很多方法可以看待它。

想到的一个简单的非 ML 选项是仅使用“jack”和产品的历史记录:对于每个 jack 和/或每个产品,例如计算过去“过度请求”的平均数量。如果该平均值高于某个阈值,则将下一个请求标记为潜在的“过度请求”。

现在作为一个回归问题,据我所知,有必要将千斤顶和产品都视为自变量。所以我不认为同一个千斤顶有两种不同的产品会算作重复测量。然而,在历史上,可能有一些实例具有相同的插孔和相同的产品,一次是“过度请求”,而另一些则不是。据我所知,这更像是一种重复测量,但无论如何这并不重要:线性回归或任何其他回归方法可以处理数据中的不一致,只要有一些一般模式。但我怀疑线性回归对于此类数据的变化是否足够灵活,我建议使用决策树回归 (M5P) 或 SVM 回归 (SVR)。