涉及四分位距和标准差的不等式

机器算法验证 描述性统计
2022-03-22 23:06:25

假设我有一组有限的观察xi,i=1,2,,n. 标准差和四分位距之间是否存在任何不等式?

1个回答

IQR 和标准偏差都与比例因子成正比,因此比较两者的正确方法是使用它们的比率。

SD:IQR 的上限

带有 PDF 的 Cauchy 分布

dx/σπ(1+(x/σ)2)

有无限的 SD 和四分位数±σ. 从中我们可以通过左右截断来创建具有任意大 SD 的分布,同时(通过调整σ) 我们可以单独使 IQR 任意短。因此,对于任何给定的 IQR,SD 没有上限,而对于任何给定的 SD,IQR 也没有下限。

SD:IQR 的下限

对于任何给定的 IQR,我们可以通过两种方式减少 SD:(1)通过将中间 50% 的值移向四分位数的中点;(2)通过将外部 50% 的值移向四分位数. 固定 IQR 的 SD 下限是通过具有以下特征的(离散)分布族实现的25+ε% 概率11502ε% 概率0(0<ε<25); 这个家庭的成员有四分位数在±1--其中的IQR2和标准差(50+2ε)/100; 因此,SD 与 IQR 的(下)限制比率为1/4.

(请注意,这个家庭的任何成员都没有违反切比雪夫的不等式,前提是在其声明中注意:100概率百分比严格位于平均值的 2 个标准差以内 (0) 在每种情况下,在每种情况下,四分位数的位置都没有歧义。但是,在限制ε0, SD 与 IQR 的比率接近1/4. 解释不正确,这似乎意味着50百分比的概率超出2均值的标准差,而切比雪夫不等式断言不超过25百分比的概率可以超出2平均值的标准差。然而,极限分布的四分位数位置与ε=0模棱两可:较低的可能介于两者之间10和鞋面之间的任何地方01并且没有一个概率是严格超出的2平均值的标准差。)

概括

因为足够大的有限样本的经验分布可以任意接近任何给定的分布,所以对于数据的理论分布和经验分布的结论是:

14SDIQR

这些是可能的最佳界限。