数据挖掘 - 为每种组合构建线性回归模型与仅构建一个机器学习模型 - 吾爱随笔录

所以我的问题更多是在概念方面。

给定一个数据集，我想预测一个给定的连续变量 Y。现在，有3 个特征、2 个分类和一个数值（仅限整数）。我知道，如果我创建 2 个分类特征的组合，我可以使用数值特征作为线性回归模型中的自变量来预测 Y。例如，对于2 个分类特征的组合我建立了一个线性模型，其中数值特征是自变量。这会产生良好的结果，因为 Y 和给定组合的数值特征之间的关系将始终是线性的。然而，这也意味着我可能必须构建 1000 个线性回归，每个组合一个。这对我来说当然听起来有点奇怪，因为我可以使用例如决策树模型而无需创建分类特征的组合。我试图了解每种方法的优缺点，但我遇到了困难。任何人都可以阐明这个问题吗？

例子：

想象一下，这个数据集来自一家大型面包店。数据集非常大，超过 10 万个实例。分类值是机器 ID 和它所做的配方。所以组合是（机器，配方）。数字特征是你做食谱的次数。因此，我试图预测给定过程需要多长时间。现在很明显，对于每一种组合，你做的越多，需要的时间就越多。问题是，为每个组合创建一个线性方程似乎非常奇怪。当然它可以工作，但你最终会得到大量的线性方程，这似乎比一个单一模型需要更多的计算能力。