我正在使用randomForest R 包来执行随机森林特征选择。我不明白,在执行 randomForest 函数后,我必须检查重要性字段,并通过均方误差精度降低和基尼纯度降低来研究重要性测量。
例如,通过使用这个 R 代码:
data(iris)
library("randomForest")
set.seed(71)
iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,
proximity=TRUE)
print(iris.rf)
它将打印出:
MeanDecreaseAccuracy MeanDecreaseGini
Sepal.Width 0.007962441 2.625413
Sepal.Length 0.031901722 10.714741
Petal.Length 0.304760304 42.104241
Petal.Width 0.300907912 43.767952
然后,我发现我可以通过 MeanDecreaseAccuracy 或 MeanDecreaseGini 字段对这些特征进行排名,以了解哪些是最重要的。即使我了解该方法的输出,我也无法理解该方法如何获得其结果。
问题是:
- 该方法如何计算准确性?
- 该方法如何将数据集拆分为训练集和测试集以计算准确度?