数据挖掘 - XGBoost和随机森林之间的选择标准是什么 - 吾爱随笔录

数据挖掘机器学习随机森林 xgboost 模型选择集成建模

2022-02-22 13:02:56

我试图理解 - 什么时候有人会选择随机森林而不是 XGBoost，反之亦然。那里的所有文章都强调了两者之间的差异。我理解他们。但是，当实际给定一个真实世界的数据集时，我们应该如何处理问题以在这些数据集之间进行选择？

例如：是否有一组用于方差检查的统计测试，然后选择？还是只是因为你有很多特征，并不能真正选择做参数调整，所以你应用随机森林得到结果？

1个回答

假设最好的选择方式是经验性的。您在数据集中运行这两种算法并检查哪一种具有更好的性能。

的确，你可以做很多理论分析，但最终你无论如何都必须尝试。他们都使用决策树集成，所以结果应该不会有太大的不同。根据经验，梯度提升往往会获得更好的结果。此外，它在数学上更难以理解。

通常决策树不需要太多的参数转换，或者至少比其他模型少。

没有经典的统计测试会告诉你会表现得更好。有一些启发式方法，但我发现它们过于复杂。

其它你可能感兴趣的问题