根据数据分布选择替换缺失值

数据挖掘 数据集 统计数据 预处理 缺失数据
2022-03-03 00:08:09

我正在基于相对较小的数据集构建分类模型。我拥有的不同属性有一些缺失值。我无法删除任何缺失值的记录,所以我想替换它们。

我做了一些一般性的计算,以了解数据的中断情况,并帮助我选择将替换缺失值的值,

假设我具有以下属性 A:
mean = 121.68676278
std = 30.51562426
median = 117
mode =
min = 44
max = 199
[在所有计算中,我忽略了缺失值]

如果我要在均值、中位数或众数之间进行选择,哪一个最合适?

还有一些让我非常困惑的东西,std 非常大,当我问到它时,我被告知根据我的数据范围这可能是正常的,但我不明白这意味着什么?

1个回答
  1. 我绝对建议用平均值或中位数或众数替换缺失值。如果您想了解一些技术并了解它们,我建议您通过此链接,对于插补技术,wiki 页面为您提供了一个简短的 .

  2. 您是否认为有一种方法可以预测其他单元格的缺失值。如果是,则对这些变量应用回归模型并估计缺失值。但请记住,这缺乏可变性,因为值落在回归线本身上。有诸如回归插补之类的方法可以将这种可变性分量添加到估计值中。

  3. 如果您无法从上一步开始,请查看缺失变量的值是如何分布的,使用随机函数根据该分布替换它们。

  4. 如果您无法执行上述任何一项并且想要平均,中位数。我真的不能给出我的意见,因为在这种情况下它们彼此更接近。看看什么给你最好的可预测性并在它们之间做出决定。

  5. 来到你的最后一个问题,Std。偏差仅显示您的值与平均值相差多远。如果您的数据范围很大,并且在极端情况下分布的点数足够多,那么您的标准应该很高。偏差。