百分位数的测量水平

机器算法验证 测量
2022-04-01 07:40:36

这个问题困扰了我一段时间,围绕它展开了一场大争论。在心理学(以及其他社会科学)中,我们处理处理数字的不同方式:-) 即测量水平标准化一些问卷调查表也是心理学中的常见做法,因此将数据转换为百分位数(以评估受访者在代表性样本中的位置)。

长话短说,如果您有一个变量保存以百分位数表示的数据,您应该如何处理它?作为序数、区间甚至比率变量?!

这不是比率,因为没有真正的 0(第 0百分位数并不意味着没有测量属性,而是变量的最小值)。我主张百分位分数是序数的观点,因为 P 70 - P 50不等于 P 50 - P 30,而另一方说它是区间。

先生们,请剪断绳子。序数还是区间?

3个回答

John Tukey在他关于EDA的书中强烈而有说服力地论证了比例类型的测量。使比例特别且不同于经典的“名义、序数、区间、比率”分类法的一件事是,它们经常具有明显的对称性:比例可以被认为是二元 (0/1) 指标变量的平均值。因为重新编码指标不应产生任何有意义的差异,所以当您将比例重新表示为其补充时,数据分析应基本保持不变。 具体来说,重新编码将原始比例更改为0110p1p. 例如,在公投中谈论 60% 的人投“是”或 40% 的人投“否”应该没有区别;0.6 和 0.4 这两个数字代表完全相同的东西。因此,无论使用哪种表达形式,统计、测试、决策、总结等都应该给出相同的结果(比照了)。

因此,Tukey 使用了比例的重新表达,并基于这些重新表达进行分析,这些重新表达在转换下是(几乎)不变的。对于各种函数,它们的形式为(取减号通常是最好的,因为它继续区分:只有重新表达时它们的符号不同。)当缩放以使附近的微分变化等于时,他称这些为“折叠”值。其中包括折叠对数(“flog”),与 = =p1pf(p)±f(1p)fp1pp=1/21log(p)log(1p)log(p/(1p)logit(p),和折叠根(“froot”),与成比例。p1p

对这个主题的数学阐述不如看到实际的统计数据令人信服,因此我建议阅读 EDA 的第 17 章并研究其中的示例。

总之,我建议这个问题本身过于局限,应该对超出经典变量分类所建议的可能性持开放态度。


附录:为什么“间隔”和“比率”不是很正确的答案

史蒂文斯在 1946 年发表在《科学》( Science ) 上的一篇有说服力的论文(新系列,第 103 卷,第 2684 期,第 677-680 页)中创造了名义序数间隔比率的同名词。区分的基础是群体行动下的“基本经验操作”的明确不变性。 他的表 1 描述了规模和群体之间的关系:

ScaleMathematical Group StructureNominalPermutation Group x=f(x); f(x) means any one-to-one substitutionOrdinalIsotonic Group x=f(x); f(x) means any monotonic increasing functionIntervalGeneral Linear Group x=ax+bRatioSimilarity Group x=ax

(这是直接引用,有些列没有显示。)

这必须有一定的宽容度,因为我们总是可以选择不完全正确的模型。(例如,作为变异模型的正态分布可能非常有用且非常准确,即使应用于例如人的身高,即使所有正态分布都为负值分配一些概率,也永远不会是负数。)因此,例如,极小比例的数据可以被认为是比率类型,因为上限实际上是无关紧要的。的非常接近的比例的数据可能被认为是区间101类型。将问题的范围限制在这些特殊情况中的任何一个都将(部分地)证明该线程中的其他一些答案是正确的,这些答案坚持比例是在区间尺度或比率尺度上。但是,当数据集中的比例既可以大(大于)也可以小(小于)并且其中一些接近时,显然一般线性组和相似性组都不能适用,因为它们不保留区间这就是为什么 Stevens 的分类是不完整的,以及为什么它通常不能应用于比例。1/21/210[0,1]

了解我的答案的背景

区分序数和区间尺度的关键属性是我们是否可以取差异的比率虽然您不能对任一比例进行直接测量的比率,但差异的比率对于区间但不是序数有意义(参见:http ://en.wikipedia.org/wiki/Level_of_measurement#Interval_scale )。

温度是区间尺度的经典示例。考虑以下:

80 f = 26.67 c

40 f = 4.44 c 和

20 f = -6.67 c

第一种和第二种的区别是:

40 f 和 22.23 c

第二个和第三个的区别是:

20 f 和 11.11 c

请注意,无论我们测量温度的比例如何,该比率都是相同的。

序数数据的一个典型例子是排名。如果A、B、C三支球队分别排名第一、第二、第四,那么这样的说法就没有意义:“A队与B队的实力差距是B队差距的一半相对于 C 队的实力。”

回答你的问题

百分位数的差异比率有意义吗?换句话说,百分位数差异的比率与基础规模是否不变?例如,考虑:(P 70 -P 50)/(P 50 -P 30)?

假设这些百分位数基于 0-100 之间的基础分数,我们计算上述比率。显然,我们将在分数的任意线性变换下获得相同的百分位差异比率(例如,将所有分数乘以 10,使范围在 0-1000 之间并计算百分位)。

因此,我的回答是:间隔

连续(间隔);这是一种如何将序数数据转换为可能具有某种有意义的分布的方法。