什么是集中趋势?

机器算法验证 中心极限定理 定义 集中趋势
2022-03-26 15:26:31

我在 CV 上看到过很多关于集中趋势的问题。这似乎是一个模糊的话题。定义包括最常见的分布值。对于概率分布和样本,均值、众数和中位数被认为是集中趋势的度量。我们在初级统计学书籍中看到了这个术语。我们还看到了这三个指标似乎与我们的集中趋势概念不相符的例子。例如,考虑将概率 1/2 置于 0 并将 1/2 置于 1 的离散分布。该分布的平均值为 1/2。但是所有的概率质量都集中在 1/2 之外。中位数是否明确?是 0 因为一半的概率质量等于 0 还是 1 因为恰好有一半的分布小于 1。如果我们从该分布中随机抽取样本,则样本中位数可能为 0 1/2 或 1,具体取决于样本大小。这也可以称为双峰分布,因为 0 和 1 都是具有最大概率质量的点,每个点的高度均为 1/2。

我的立场是,像这样的分布没有中心或集中趋势。也有像这样的连续类似物。我将尝试将这个问题具体化,因为它可能过于笼统而无法征求意见。

  1. 您认为所有分布都有一些可以称为中心的度量吗?如果不举一个最喜欢的例子。有一个众所周知的笑话。“一个人的一只脚在冰桶里,另一只脚在烧煤。但平均而言,他的脚温度还不错。”

  2. 对于样本均值满足中心极限定理条件的总体分布,样本均值收敛于总体均值并呈现集中趋势。假设这是一个公平的评估,那么像柯西这样的样本均值不稳定且总体均值不存在的分布呢?我们是说它没有中心还是我们可以说中位数是集中趋势的量度?

我意识到这篇文章可以被视为哲学问题或定义问题。我认为这里是合适的,因为在人们被例子迷惑的地方出现了很多问题。所问问题的示例是 (a) 响应时间的中心趋势是什么。(b) 什么是周期变量集中趋势的度量 (c) 你如何计算这个特定分布的集中趋势。(d) 你如何用标准化等级量表比较两组的集中趋势。这些才一点点。在写这个问题时,我得到了一个包含 10 个类似问题的列表。

我认为对这个问题的良好讨论可以说明为什么其中一些问题没有好的答案。

1个回答

您可能会发现将“集中趋势”视为对分布位置的了解更有用。这与不传达位置的传播度量(方差、范围等)形成对比。集中趋势的维基百科条目

在统计学中,集中趋势(或更常见的是集中趋势的度量)是概率分布的中心值或典型值。它也可以称为分布的中心或位置。

对于许多示例,均值、中值或众数将很好地传达分布的位置。例如,如果您想知道在阿姆斯特丹购买一艘船屋要花多少钱,知道平均价格、第 50 个百分位价格或最常见的价格都会让您了解那里的船屋价格。当然,这种分布会有很大的变化,知道平均值(或中位数或众数)实际上并不能告诉您任何一艘船屋的成本。但它确实让您了解船屋价格在0美元到 0美元之间的分布位置无限(例如,您会觉得它比在东京买一杯咖啡要贵,而比在东京买一家餐馆要便宜)。即使对于许多离散变量,平均值也可能很有趣且有用(例如,您可能对每艘船屋的平均房间数感到好奇,尽管谈论房间的一小部分实际上是荒谬的)。

因为平均值是如此有用且适用范围如此广泛,我认为很多人将“集中趋势”与“平均值”混为一谈,但没有真正的理由这样做。正如您所指出的,在很多情况下,平均值(或中位数)是不寻常的值(多峰或非对称分布),甚至是不可能的值(在离散分布的情况下)。令人高兴的是,有很多方法可以传达位置/集中趋势。只需选择一个对您的数据有意义的。