对于二元分类问题,我有一个包含 200 个观察值的小数据集。大约有 20 个潜在变量,但基于方差重要性,我认为只有 2 或 3 个对分类很重要。这个数据集太小了,无法训练随机森林模型进行预测,但是可以运行随机森林模型并使用变量重要性特征来了解哪些变量是重要的吗?如果只有少数几个特性是迄今为止最重要的,那么,我认为尽管数据量很小,但它是一种合适的方法,因为它会告诉我我想要什么。然后可以使用结果来构建一个简单的决策树或作为未来更大测试的初步分析。
这种想法有什么缺陷吗?
对于二元分类问题,我有一个包含 200 个观察值的小数据集。大约有 20 个潜在变量,但基于方差重要性,我认为只有 2 或 3 个对分类很重要。这个数据集太小了,无法训练随机森林模型进行预测,但是可以运行随机森林模型并使用变量重要性特征来了解哪些变量是重要的吗?如果只有少数几个特性是迄今为止最重要的,那么,我认为尽管数据量很小,但它是一种合适的方法,因为它会告诉我我想要什么。然后可以使用结果来构建一个简单的决策树或作为未来更大测试的初步分析。
这种想法有什么缺陷吗?
随机森林模型绝对可以用来帮助您确定特征的重要性。实际上,它被用作特征选择的一种非常常见的策略。如果您的数据太小,我的建议是将其视为使用此模型进行预测,这意味着您应该注意过度拟合并进行适当的超参数优化(您需要一个更简单、更小的模型),这样您找到的特征确实是最相关的,并且不仅仅因为受到小训练集的偏见而显得重要。