所以我的问题更多是在概念方面。
给定一个数据集,我想预测一个给定的连续变量 Y。现在,有3 个特征、2 个分类和一个数值(仅限整数)。我知道,如果我创建 2 个分类特征的组合,我可以使用数值特征作为线性回归模型中的自变量来预测 Y。例如,对于2 个分类特征的组合我建立了一个线性模型,其中数值特征是自变量。这会产生良好的结果,因为 Y 和给定组合的数值特征之间的关系将始终是线性的。然而,这也意味着我可能必须构建 1000 个线性回归,每个组合一个。这对我来说当然听起来有点奇怪,因为我可以使用例如决策树模型而无需创建分类特征的组合。我试图了解每种方法的优缺点,但我遇到了困难。任何人都可以阐明这个问题吗?
例子:
想象一下,这个数据集来自一家大型面包店。数据集非常大,超过 10 万个实例。分类值是机器 ID 和它所做的配方。所以组合是(机器,配方)。数字特征是你做食谱的次数。因此,我试图预测给定过程需要多长时间。现在很明显,对于每一种组合,你做的越多,需要的时间就越多。问题是,为每个组合创建一个线性方程似乎非常奇怪。当然它可以工作,但你最终会得到大量的线性方程,这似乎比一个单一模型需要更多的计算能力。