标记异常值不是一个主题决定,而是一个统计决定。异常值有一个精确、客观的定义:它们是不遵循大多数数据模式的观察结果。这样的观察需要在任何分析开始时分开,因为它们与大量数据的距离确保它们将对任何以最大似然拟合的模型施加不成比例的拉力。
此外,检测异常值是一个具有明确目标的统计过程,其功效可以衡量。同样重要的是要指出,无论它们是如何被识别的(无论是根据算法还是仅仅通过相信别人的疯狂猜测),一组可疑观察的离群性都可以通过测量它们对非稳健拟合:根据定义,异常值是对从 LS/ML 拟合获得的系数具有异常杠杆作用(或“拉动”)的观察值。换句话说,离群值是从样本中移除的观察值应该严重影响 LS/ML 拟合。我在对相关问题的回答中添加了更多解释。
无论如何,您引用的检测异常值的规则是有缺陷的。要了解原因,只需注意 z 分数的平方和总和为常数 (n-1),无论您的数据是否包含异常值。对于您在上一个答案中详细解释的确切问题,
当怀疑感兴趣的观察值具有偏态分布时,如何使用调整后的箱线图来识别异常值。
正如 Placidia 所指出的,我怀疑您没有为我们提供所有元素,因为在单变量数据集上进行数据挖掘确实很奇怪。
无论如何,我建议您看一下有关异常值检测方法的现代书籍。我热烈推荐 Maronna RA、Martin RD 和 Yohai VJ (2006)。稳健统计:理论与方法。威利,纽约。