John Tukey在他关于EDA的书中强烈而有说服力地论证了比例类型的测量。使比例特别且不同于经典的“名义、序数、区间、比率”分类法的一件事是,它们经常具有明显的对称性:比例可以被认为是二元 (0/1) 指标变量的平均值。因为重新编码指标不应产生任何有意义的差异,所以当您将比例重新表示为其补充时,数据分析应基本保持不变。 具体来说,重新编码和将原始比例更改为0→11→0p1−p. 例如,在公投中谈论 60% 的人投“是”或 40% 的人投“否”应该没有区别;0.6 和 0.4 这两个数字代表完全相同的东西。因此,无论使用哪种表达形式,统计、测试、决策、总结等都应该给出相同的结果(比照了)。
因此,Tukey 使用了比例的重新表达,并基于这些重新表达进行分析,这些重新表达在转换下是(几乎)不变的。对于各种函数,它们的形式为。(取减号通常是最好的,因为它继续区分和:只有重新表达时它们的符号不同。)当缩放以使附近的微分变化等于时,他称这些为“折叠”值。其中包括折叠对数(“flog”),与 = =p⟷1−pf(p)±f(1−p)fp1−pp=1/21log(p)−log(1−p)log(p/(1−p)logit(p),和折叠根(“froot”),与成比例。p–√−1−p−−−−√
对这个主题的数学阐述不如看到实际的统计数据令人信服,因此我建议阅读 EDA 的第 17 章并研究其中的示例。
总之,我建议这个问题本身过于局限,应该对超出经典变量分类所建议的可能性持开放态度。
附录:为什么“间隔”和“比率”不是很正确的答案
史蒂文斯在 1946 年发表在《科学》( Science ) 上的一篇有说服力的论文(新系列,第 103 卷,第 2684 期,第 677-680 页)中创造了名义序数间隔比率的同名词。区分的基础是群体行动下的“基本经验操作”的明确不变性。 他的表 1 描述了规模和群体之间的关系:
ScaleNominalOrdinalIntervalRatioMathematical Group StructurePermutation Group x′=f(x); f(x) means any one-to-one substitutionIsotonic Group x′=f(x); f(x) means any monotonic increasing functionGeneral Linear Group x′=ax+bSimilarity Group x′=ax
(这是直接引用,有些列没有显示。)
这必须有一定的宽容度,因为我们总是可以选择不完全正确的模型。(例如,作为变异模型的正态分布可能非常有用且非常准确,即使应用于例如人的身高,即使所有正态分布都为负值分配一些概率,也永远不会是负数。)因此,例如,极小比例的数据可以被认为是比率类型,因为上限实际上是无关紧要的。或的非常接近的比例的数据可能被认为是区间101类型。将问题的范围限制在这些特殊情况中的任何一个都将(部分地)证明该线程中的其他一些答案是正确的,这些答案坚持比例是在区间尺度或比率尺度上。但是,当数据集中的比例既可以大(大于)也可以小(小于)并且其中一些接近或时,显然一般线性组和相似性组都不能适用,因为它们不保留区间。这就是为什么 Stevens 的分类是不完整的,以及为什么它通常不能应用于比例。1/21/210[0,1]