统计中“过度分散”的含义

机器算法验证 可能性 分布 正态分布 方差
2022-03-19 11:52:00

我试图理解统计中的“过度分散”是什么意思。

根据维基百科页面,“过度分散”定义如下:“在统计中,过度分散是指数据集中存在比基于给定统计模型预期的更大的可变性(统计分散)。

但是,我听说过对“过度离散”的其他解释,这表明“过度离散是指数据内的方差是均值函数的情况” - 换句话说,均值和方差之间存在非恒定关系数据。

我的问题:有人能告诉我如何在数学上测量和定义“过度分散”吗?例如,我听说正态分布和泊松分布可以定义为“离散模型”。我也听说很多模型都可以被认为是“色散模型”,只要在模型中插入“色散参数”即可。使用这些定义 - 正态分布是“过度分散”的一个例子吗?例如,峰周围的正态分布有更多的变化,而尾部周围的正态分布的变化相对较小。这一切都正确吗?

谢谢!

参考:

4个回答

在泊松分布中:(λ)

μ=λσ2=λμ=σ2

因此,当我们相信我们有泊松分布时,我们期望从中抽取的样本服从,因为在可疑分布中x¯s2μ=σ2

处有严重违规,那么我们认为是不可信的,我们将数据描述为过度分散。也就是说,色散比我们预期的要高。s2>>x¯μ=σ2

对于许多单参数概率分布,分布中的方差是均值的函数。当您使用这些分布将数据拟合到统计模型时,估计器往往会给您一个合理的均值估计值,但估计的方差只是它的函数,因此它通常不会很好地拟合数据。这发生在某些单参数概率分布中,最值得注意的是泊松分布。在这种情况下,数据通常比模型的估计方差更具可变性,在这种情况下,我们说存在“过度分散”的问题。

您对此给出的两个描述都是正确的。过度分散确实是数据中存在比模型预测的更大的可变性。这通常是因为模型中使用的分布的方差是均值的函数,因此估计过程不能很好地估计它们(在将数据拟合到模型时,均值估计通常比方差估计更重要)。

粗略地说,如果您在统计分布中有个参数,并且将其拟合到数据中,它将允许您准确估计个矩(通常是前个矩,但并不总是)。因此,例如,一些单参数分布可以让您准确估计均值而不是方差,一些二参数分布可以让您准确估计均值和方差而不是偏度,一些三参数分布可以让您准确估计估计均值、方差和偏度,但不估计峰度等。kkk

如果您想避免建模中的过度分散,您应该使用统计模型,该模型使用可以拟合均值和方差的基​​础双参数分布(例如,使用负二项式模型而不是泊松模型)。如果您想准确地拟合高阶矩,同样的基本原则也适用——例如,如果您想准确地拟合偏度,您可以推广到三参数分布,等等。


例如,学生的 T 分布有一个影响方差和峰度但不影响均值或偏度的参数。

我遇到过度分散问题的唯一地方是例如在基于泊松计数数据(泊松回归)拟合 GLM 模型时。

如您所知,对于泊松,方差等于均值,所以

Var(Yi)=E(Yi).

但通常方差超过均值,因此尝试通过引入过度离散参数来恢复上述关系,函数形式的ϕ

Var(Yi)=ϕE(Yi),

在对数似然最大化期间与参数一起拟合。对于泊松,,如果你允许,你不再有来自指数族的分布。实施的最终结果是被故意夸大,导致对标准误差的高估——本质上是对参数重要性的低估。如果不考虑,它会导致低估标准误差,或高估重要性。ϕ=1ϕ>1ϕV(β)ϕ

另一种解决方法是使用分位数回归,它取决于排名(非参数)。

单参数分布可能会发生过度离散,其中均值和方差是联系在一起的(泊松、二项式、指数)。在实际数据中,方差通常比允许的大得多。过度分散会导致过度自信(例如过于狭窄的 CI),但通常不会引入偏差。在实际建模中,可以通过以下三种方式之一解决此问题:

  1. 拟似然或广义方程估计
  2. 双参数分布,例如负二项式或 beta-二项式
  3. 观察级随机效应

我正在我的书中讨论问题和解决方案 2 和 3 。