cforest 和 randomForest 分类预测误差

机器算法验证 r 机器学习 分类 随机森林
2022-04-05 22:11:27

我将 cforest 和 randomForest 用于 300 行和 9 列的数据集,并收到了随机森林的良好(几乎过度拟合 - 误差等于零)结果和 cforest 分类器的大预测误差。这两个程序之间的主要区别是什么?

我承认对于 cforest,我使用了任何可能的输入参数组合,例如最好的一个,但仍然存在很大的分类错误,是cforest_control(savesplitstats = TRUE, ntree=100, mtry=8, mincriterion=0, maxdepth=400, maxsurrogate = 1).

对于非常大的数据集(大约 10000 行和 192 列)randomForest 和 cforest 具有几乎相同的错误(前者在与径向内核 svm 相​​同的水平上略好),但对于提到的小数据集,令我惊讶的是没有办法改进cforest 预测精度...

2个回答

这可能是您对 cforest 中的 mtry 参数的值吗?将其设置为 8,您正在使用 bagging。将其设置为 mtry=3 并查看它与 randomForest 算法的比较

randomForest 和 cforest 的实现存在差异,主要在于如何从森林计算预测。在http://www.jstatsoft.org/v50/i11/paper中讨论了这些差异,它提供了一个框架来比较生存森林中的错误。