数据挖掘 - 定义用于预测数据集中缺失值的模型 - 吾爱随笔录

数据挖掘分类 r 数据插补

2022-02-28 03:13:11

我有以下问题：我正在寻找方法来预测给定数据集中随机缺失的数据。例如：我有一个包含产品信息的数据集。这可以是类别、品牌名称等。假设特定产品的品牌名称信息缺失（4261 行/10 000）。如何根据我在数据集中拥有的信息来预测这些信息？

1个回答

对于分类数据，您可以尝试使用随机森林等分类方法。例如，在您的品牌名称假设中，使用您现有的数据并将品牌名称视为响应变量。因此，当您在缺少品牌名称的条目中给出其他特征的值时，它应该尝试预测品牌名称是什么。

我建议随机森林的原因是它使用了集成方法。如果您不知道它背后的工作原理，请探索随机森林的工作原理。

其它你可能感兴趣的问题