我有以下问题:我正在寻找方法来预测给定数据集中随机缺失的数据。例如:我有一个包含产品信息的数据集。这可以是类别、品牌名称等。假设特定产品的品牌名称信息缺失(4261 行/10 000)。如何根据我在数据集中拥有的信息来预测这些信息?
定义用于预测数据集中缺失值的模型
数据挖掘
分类
r
数据插补
2022-02-28 03:13:11
1个回答
对于分类数据,您可以尝试使用随机森林等分类方法。例如,在您的品牌名称假设中,使用您现有的数据并将品牌名称视为响应变量。因此,当您在缺少品牌名称的条目中给出其他特征的值时,它应该尝试预测品牌名称是什么。
我建议随机森林的原因是它使用了集成方法。如果您不知道它背后的工作原理,请探索随机森林的工作原理。