用根据先前替换值计算的特征平均值替换缺失值

数据挖掘 数据清理 缺失数据
2022-02-14 14:41:56

我不知道如何问这个,但我会尽力而为。

我已将某个特征中的一些缺失值替换为以第二个分类特征为条件的特征的平均值。但是,并不是所有的缺失值都被替换了,因为第二个特征的某些类别在第一个特征中没有任何值,因此无法计算其均值。然后,我再次尝试将剩余的缺失值替换为以第三个特征为条件的平均值。第三个特征还包含刚刚被第一个特征的平均值替换的值。那么,用包含一些曾经替换其他缺失值的值计算的平均值来替换缺失值是否可以?

1个回答

那么,用包含一些曾经替换其他缺失值的值计算的平均值来替换缺失值是否可以?

没有法律禁止它:)

但是,通过以许多不同的方式替换各处的缺失值,您可能会在某些时候破坏数据集的可靠性,而这反过来又会扰乱您的实验。

您没有提供有关任务或数据的任何详细信息,因此我假设您是故意选择这种方法的,但以防万一,让我提醒您其他选项:

  • 您可以丢弃大多数值缺失的特征,除非它们恰好对任务非常重要
  • 您可以丢弃具有许多/一些缺失值的实例,特别是如果您有一个非常大的数据集
  • 您可以使用能够自行处理缺失值的 ML 方法