我想从一小部分数字中识别异常值。我该怎么做?
例如,对于一组数字:-0.4、0.4、52.1,实际上 52.1 是一个异常值。
我尝试使用四分位距来识别异常值,但它不会将 52.1 识别为异常值。
我想从一小部分数字中识别异常值。我该怎么做?
例如,对于一组数字:-0.4、0.4、52.1,实际上 52.1 是一个异常值。
我尝试使用四分位距来识别异常值,但它不会将 52.1 识别为异常值。
“异常值”是一个非常出乎意料的观察结果,以至于我们怀疑它是无效的——被噪音或其他东西破坏了。但出乎意料的是什么?一个极不可能的观察结果?但是我们怎么知道什么是可能的呢?
除非您能够或愿意对生成这些数字的分布做出一些假设,否则您无法真正声明异常值。例如,四分位数没有帮助,因为它只会帮助您找到 x% 的最大值或最小值。但是每个数据集都有这些——实际上每个数据集都有一个最小值和最大值,作为最小值或最大值并不意味着是一个异常值。
在实践中,我感觉到这里潜伏着一个假设,即这些数字可能正态分布在某个平均值附近,并且具有大致一些标准偏差。如果您知道平均值和/或标准差应该是什么,您可以直接使用它来确定观察的可能性有多大,如果它超过您选择的阈值,则将其作为异常值丢弃。
您可以将此样本的均值和标准偏差作为替代,对于足够大的样本,样本均值和标准偏差可能与实际总体均值和标准偏差足够接近才能起作用。在这里,由于数据集如此之小,异常值对统计数据的影响如此之大,以至于他们放弃了根据它们影响的统计数据来评估它们的尝试。有点像圆形。