我知道,如果您使用不同的随机种子重新运行随机森林,您将适合不同的模型。我想知道比较不同的随机森林模型(在不同的随机种子下运行)并在训练数据上采用最准确的模型(使用 10 倍 CV)进行下游工作是否可以接受。
例如,下面是一个数据集中基于 10 倍 CV 的准确度分布,该数据集中有 147 个样本和 278 个特征(所有两类特征),用于预测疾病状态(两类:健康/患病)。此分布基于具有不同随机种子的 100 个 RF 复制:
采用最高精度的模型进行特征选择并拟合我的测试数据是错误的吗?
我也有兴趣将所选模型的 10 倍 CV 准确度与其他 RF 模型的准确度进行比较将其转换为测试/训练数据)。我担心如果我选择精度最高的模型,这种方法可能会有偏差。
