集成表达式

数据挖掘 机器学习 集成建模 合奏
2022-02-28 03:42:47

我有两个模型,m1m2,我想将它们集成到最终模型中。我希望能够根据网格搜索对其中一个或另一个进行加权。这样做时,我想到了两个主要想法:

  • 定义模型族m1a+m2(1a), 在哪里0<a<1, 找出a这给出了最好的分数。
  • 定义模型族m1am21a, 在哪里0<a<1, 找出a这给出了最好的分数。

然而,在某些情况下,我看到Kaggle 比赛中的顶级模特做着完全不同的事情,比如有一个表格的最终模型m1a+m2b.

我的问题是,每种解决方案的优缺点是什么?他们什么时候工作得更好,什么时候工作得更糟?第三种合奏何时适合,是否有任何启发式调优ab?

3个回答

这是一个经验问题。对于不同的模型和不同的数据集,答案会有所不同。

最好的方法是使用交叉验证来查看哪种集成技术在给定数据的评估指标上得分最高。

您可以对每个机器学习算法提出相同的问题,但答案仍然非常相似。

线性回归比决策树有什么优势?要回答这个问题,您可以在数学上定义它们。在您的情况下,数学定义似乎很简单:加权平均值或几何平均值。

什么时候任何模型比其他模型效果更好?在交叉验证中尝试一下。

可悲的是,机器学习中的科学方法是通过尝试和错误来完成的。在拟合模型之前说出超参数的值是不可靠的。

当您通过一组数据集运行算法时,您“证明”了该算法在 ML 中有效,并且它的性能优于其他算法。

回到你的问题,kaggle 中发生的事情往往是技术最先进的事情。所以如果它在那里,它值得一试。

我同意大脑。效果更好的解决方案是更适合您的数据的解决方案。

请注意,如果您只有一个参数,您可以得出最佳值,而不是进行网格搜索。您的解决方案系列受到我们的限制,因此我预计不会有显着收益,但没有理由不使用它。