我试图理解 - 什么时候有人会选择随机森林而不是 XGBoost,反之亦然。那里的所有文章都强调了两者之间的差异。我理解他们。但是,当实际给定一个真实世界的数据集时,我们应该如何处理问题以在这些数据集之间进行选择?
例如:是否有一组用于方差检查的统计测试,然后选择?还是只是因为你有很多特征,并不能真正选择做参数调整,所以你应用随机森林得到结果?
我试图理解 - 什么时候有人会选择随机森林而不是 XGBoost,反之亦然。那里的所有文章都强调了两者之间的差异。我理解他们。但是,当实际给定一个真实世界的数据集时,我们应该如何处理问题以在这些数据集之间进行选择?
例如:是否有一组用于方差检查的统计测试,然后选择?还是只是因为你有很多特征,并不能真正选择做参数调整,所以你应用随机森林得到结果?
假设最好的选择方式是经验性的。您在数据集中运行这两种算法并检查哪一种具有更好的性能。
的确,你可以做很多理论分析,但最终你无论如何都必须尝试。他们都使用决策树集成,所以结果应该不会有太大的不同。根据经验,梯度提升往往会获得更好的结果。此外,它在数学上更难以理解。
通常决策树不需要太多的参数转换,或者至少比其他模型少。
没有经典的统计测试会告诉你会表现得更好。有一些启发式方法,但我发现它们过于复杂。