考虑以下数据集train:
z a b c
0 1 40 185
0 1 25 128
0 0 32 100
0 0 29 100
1 1 30 107
0 0 30 133
1 1 38 132
1 1 37 127
1 0 30 184
1 0 40 199
1 1 26 185
0 1 21 185
0 0 21 134
0 0 20 137
1 1 22 135
0 0 23 189
1 0 32 109
1 0 31 152
1 0 38 130
1 1 37 191
0 1 39 168
1 0 28 183
0 1 26 171
1 1 23 164
0 1 32 111
0 0 34 131
1 0 30 121
1 0 27 195
1 1 29 117
1 0 26 187
1 0 34 183
0 0 28 189
0 1 34 150
0 1 34 176
0 1 24 140
1 0 37 181
0 1 36 109
1 0 39 198
0 0 32 164
其中z是具有预测变量a,b,c的二元变量。假设有一些其他测试集具有与训练数据集相同的变量,我们想要预测z。对于决策树,使用完整的训练数据集来构建树会更好吗?折交叉验证的目的是什么?
在随机森林中,是否折交叉验证?我以为你可以使用OOB错误?