具有大量但有限的可能值的计数变量是分类变量还是连续变量?
据我所知,没有任何变量分类法能够捕捉到所有可能对某些理论或实践目的很重要的对比,即使仅对统计而言也是如此。如果存在这样的分类法,它可能太复杂而无法被广泛接受。
最好专注于示例而不是给出大量定义。天数是一个计数变量。它被认为是离散的而不是连续的,并且离散性可能很重要,尤其是在大多数值很小的情况下。一些统计学家可能会坚持认为只有适用于离散变量的模型才能用于此类变量。
同时,模型和方法通常将此类变量视为近似连续的。人口规模是一个更明显的例子。人口可能有数十亿,许多程序有效地将这些变量视为连续变量,而不管人们是个人这一熟悉的事实。
相反,温度等变量原则上是连续的,但按照惯例,温度可能只报告到最接近的度数或十分之一度,因此在实践中可能值的数量可能相当少。这通常不会让任何人担心。将这样的变量称为分类变量肯定是不恰当的。在某些情况下,报告温度的离散性很重要:在通过眼睛读取水银温度计并猜测最后一位数字时,人们表现出对 0 到 9 十种可能性中的某些数字的特殊偏好。
另外,我们如何处理类别?答:我们计算它们。我们计算男性,女性;失业、就业、退休、学生;任何。因此,我们经常对类别计数进行建模。
简而言之,离散计数是一种常见的变量,以及连续和分类变量。
我认为,出于您的目的,分类变量、有序变量和标量变量之间的区别更为相关,其中标量变量可能具有离散值或伪连续值,但测量它们的单位具有相同的大小或间隔。例如,很少有人需要考虑量子、原子、光子等的数量,因为它们在日常测量中的数量非常庞大。实际上,这归结为您认为出于研究目的合理的范围,因此例如,我会将 1-10000 的范围与 1 的间隔视为连续的,甚至可能会类似地考虑 1-50 的范围,但不会更小范围(分界点是主观的,部分取决于主题和目的)。您所描述的分类更有可能仍然是标量。
分类变量的值没有顺序关系,例如颜色、性别、婚姻状况。
序数值表示关系或反应的相对大小,例如在李克特量表中,可以记录诸如非常快乐、快乐、中性、悲伤、非常悲伤等反应并分配 1-5 的值,但每个之间没有明确的间隔回复。
标量变量具有固定长度的单位,例如项目数、英尺、厘米、纳米等,并且可能被认为是连续的或离散的,这取决于您前面解释的观点。