为每种组合构建线性回归模型与仅构建一个机器学习模型

数据挖掘 机器学习 决策树 线性回归 机器学习模型
2022-03-03 22:26:32

所以我的问题更多是在概念方面。

给定一个数据集,我想预测一个给定的连续变量 Y。现在,有3 个特征2 个分类一个数值(仅限整数)我知道,如果我创建 2 个分类特征的组合,我可以使用数值特征作为线性回归模型中的自变量来预测 Y。例如,对于2 个分类特征的组合我建立了一个线性模型,其中数值特征是自变量。这会产生良好的结果,因为 Y 和给定组合的数值特征之间的关系将始终是线性的。然而,这也意味着我可能必须构建 1000 个线性回归,每个组合一个。这对我来说当然听起来有点奇怪,因为我可以使用例如决策树模型而无需创建分类特征的组合。我试图了解每种方法的优缺点,但我遇到了困难。任何人都可以阐明这个问题吗?

例子:

想象一下,这个数据集来自一家大型面包店。数据集非常大,超过 10 万个实例。分类值是机器 ID 和它所做的配方。所以组合是(机器,配方)。数字特征是你做食谱的次数。因此,我试图预测给定过程需要多长时间。现在很明显,对于每一种组合,你做的越多,需要的时间就越多。问题是,为每个组合创建一个线性方程似乎非常奇怪。当然它可以工作,但你最终会得到大量的线性方程,这似乎比一个单一模型需要更多的计算能力。

1个回答

一般来说,单个模型和多个独立模型之间的选择取决于变量之间的预期依赖程度。

在您的示例中,如果两个不同的机器 id 意味着具有不同特征的两台完全不同的机器,因此配方 id 和持续时间之间的关系完全不同,那么为每台机器训练一个不同的模型更有意义。

另一方面,如果很多信息在不同机器和配方之间是通用的,例如,如果机器 M 上配方 R 的时间可以从其他机器上配方 R 的时间推导出来,那么单个模型可以利用这种类型的相关性。

  • 要决定的一个重要因素是实例的数量:多个独立模型的情况要求您对每个模型都有足够大(且足够有代表性)的样本。
  • 如果每个模型都有足够的实例,则独立模型可能会提供更准确的预测,因为该模型不会合并所有数据。

归根结底,知道哪个是最佳选择的唯一可靠方法是进行实验。