我在 CV 上看到过很多关于集中趋势的问题。这似乎是一个模糊的话题。定义包括最常见的分布值。对于概率分布和样本,均值、众数和中位数被认为是集中趋势的度量。我们在初级统计学书籍中看到了这个术语。我们还看到了这三个指标似乎与我们的集中趋势概念不相符的例子。例如,考虑将概率 1/2 置于 0 并将 1/2 置于 1 的离散分布。该分布的平均值为 1/2。但是所有的概率质量都集中在 1/2 之外。中位数是否明确?是 0 因为一半的概率质量等于 0 还是 1 因为恰好有一半的分布小于 1。如果我们从该分布中随机抽取样本,则样本中位数可能为 0 1/2 或 1,具体取决于样本大小。这也可以称为双峰分布,因为 0 和 1 都是具有最大概率质量的点,每个点的高度均为 1/2。
我的立场是,像这样的分布没有中心或集中趋势。也有像这样的连续类似物。我将尝试将这个问题具体化,因为它可能过于笼统而无法征求意见。
您认为所有分布都有一些可以称为中心的度量吗?如果不举一个最喜欢的例子。有一个众所周知的笑话。“一个人的一只脚在冰桶里,另一只脚在烧煤。但平均而言,他的脚温度还不错。”
对于样本均值满足中心极限定理条件的总体分布,样本均值收敛于总体均值并呈现集中趋势。假设这是一个公平的评估,那么像柯西这样的样本均值不稳定且总体均值不存在的分布呢?我们是说它没有中心还是我们可以说中位数是集中趋势的量度?
我意识到这篇文章可以被视为哲学问题或定义问题。我认为这里是合适的,因为在人们被例子迷惑的地方出现了很多问题。所问问题的示例是 (a) 响应时间的中心趋势是什么。(b) 什么是周期变量集中趋势的度量 (c) 你如何计算这个特定分布的集中趋势。(d) 你如何用标准化等级量表比较两组的集中趋势。这些才一点点。在写这个问题时,我得到了一个包含 10 个类似问题的列表。
我认为对这个问题的良好讨论可以说明为什么其中一些问题没有好的答案。