具体稳健的规模测量

机器算法验证 强大的 尺度估计器
2022-03-29 11:29:41

你知道任何抗异常值的尺度度量吗R(Y1,,Yn)具有与样本标准差相关的以下属性S?

魔法属性:

如果S(Y1,,Yn)>0,then R(Y1,,Yn)>0

IQR 和 MAD 不会起作用,因为如果分布太离散(但非常数!),它们是 0

或者这是不可能的?

2个回答

这在某种人为的意义上是可能的:只需调整R一点点S是非零的,以保证R在这种情况下是非零的。


"抵抗"是什么意思R有一个有限的崩溃点,但样本的可能性有值(Y,Y,,Y,YY)意思是R即使是最极端的数据也必须响应。似乎这样一个R无法抗拒。但是,由于您没有对R否则可能会限制我们的选择,您可以通过确保R在这种情况下变化不大。例如,将其定义为

R(Y1,,Yn)=MAD(Y1,,Yn)+I(S(Y1,,Yn)>0)/n

(使用指标功能I)。因为这可以改变 MAD 的数量是有限的,R与 MAD 具有相同的击穿点,使其具有(强烈)抵抗力。

这只是增加了1/n当 SD 为非零时,到(非负)MAD,保证“神奇的属性”。通过添加一个随着样本量的增加而减小到零的量,渐近地这R将具有与 MAD 相同的期望,表明人为修正并不一定那么糟糕。

当然,只有在Yi没有连续分布或强相关(否则 SD 为零的机会为零)。


如果您不想使估计器相对于 MAD 有偏差,例如,您可以将 MAD 乘以

1+sign(Y1Y2)I(S(Y1,,Yn)>0)/(2n)

当。。。的时候Yi是独立同居。(这个技巧避免了使用随机估计器的需要。)

自然地,MAD 可以被几乎任何有抵抗力的规模估计器所取代。的加法因子1/n可以被任何有界非零函数代替n或乘法因子1±1/(2n)由范围在有限区间内的任何函数[a,b]a>0.

我将在这里收集评论与导入,这是不可能的简单方式。

考虑一个例子,例如y=7,7,,7,42有两个不同的值,其中一个只出现一次。这个例子中的单例,42,有异样的味道。因此,从广义上讲,抵抗规模的措施在这里很有趣。

但是,正如@Michael M 在问题中指出的那样,对于此类示例(具有正标准偏差),则 IQR 和 MAD 为零。我们可以补充一点,最短一半的长度也是如此。但是 SD 的任何其他替代方案都几乎不能忽略最小的成对正差的值,即|yiyj|这是积极的。这里就是35对于这种类型的示例,它必须等于范围,因此本质上不是健壮的(或抗性的)。

请注意,对于二进制数据编码01类似的情况很容易出现,但使用 SD 作为尺度的衡量标准是非常普遍的,无需讨论。对于二进制数据,IQR 和 MAD 通常为 0。