数据挖掘 - 根据数据分布选择替换缺失值 - 吾爱随笔录

数据挖掘数据集统计数据预处理缺失数据

2022-03-03 00:08:09

我正在基于相对较小的数据集构建分类模型。我拥有的不同属性有一些缺失值。我无法删除任何缺失值的记录，所以我想替换它们。

我做了一些一般性的计算，以了解数据的中断情况，并帮助我选择将替换缺失值的值，

假设我具有以下属性 A：
mean = 121.68676278
std = 30.51562426
median = 117
mode =
min = 44
max = 199
[在所有计算中，我忽略了缺失值]

如果我要在均值、中位数或众数之间进行选择，哪一个最合适？

还有一些让我非常困惑的东西，std 非常大，当我问到它时，我被告知根据我的数据范围这可能是正常的，但我不明白这意味着什么？

1个回答

我绝对不建议用平均值或中位数或众数替换缺失值。如果您想了解一些技术并了解它们，我建议您通过此链接，对于插补技术，此wiki 页面为您提供了一个简短的 .
您是否认为有一种方法可以预测其他单元格的缺失值。如果是，则对这些变量应用回归模型并估计缺失值。但请记住，这缺乏可变性，因为值落在回归线本身上。有诸如回归插补之类的方法可以将这种可变性分量添加到估计值中。
如果您无法从上一步开始，请查看缺失变量的值是如何分布的，使用随机函数根据该分布替换它们。
如果您无法执行上述任何一项并且想要平均，中位数。我真的不能给出我的意见，因为在这种情况下它们彼此更接近。看看什么给你最好的可预测性并在它们之间做出决定。
来到你的最后一个问题，Std。偏差仅显示您的值与平均值相差多远。如果您的数据范围很大，并且在极端情况下分布的点数足够多，那么您的标准应该很高。偏差。

其它你可能感兴趣的问题