我正在基于相对较小的数据集构建分类模型。我拥有的不同属性有一些缺失值。我无法删除任何缺失值的记录,所以我想替换它们。
我做了一些一般性的计算,以了解数据的中断情况,并帮助我选择将替换缺失值的值,
假设我具有以下属性 A:
mean = 121.68676278
std = 30.51562426
median = 117
mode =
min = 44
max = 199
[在所有计算中,我忽略了缺失值]
如果我要在均值、中位数或众数之间进行选择,哪一个最合适?
还有一些让我非常困惑的东西,std 非常大,当我问到它时,我被告知根据我的数据范围这可能是正常的,但我不明白这意味着什么?