为什么我们不应该沉迷于不偏不倚

机器算法验证 推理 无偏估计器 点估计
2022-04-04 05:30:45

在我的贝叶斯统计课上,我的教授说我们不应该沉迷于无偏估计。

首先:我从交易偏差较小方差的意义上理解这个陈述,即“好的”估计量=具有最小均方误差(MSE)的估计量。这个想法也出现在常客中。

但第二点,也是令人困惑的部分:然后我的教授说了一些关于无偏估计器的内容是拾取噪声而不是信号。由于大多数观察到的数据只是噪声,我们希望将我们的估计缩小到 0。

我不太明白什么是噪声和信号:1)并非所有数据点都来自相同的分布,差异仅是由于采样变化吗?2)为什么无偏估计器(例如,正常模型的样本均值)不能区分噪声和信号?如果不能,什么样的估算器可以?

一个例子会很好,一个社会科学的例子是最好的!

2个回答

有些人讨厌不偏不倚。偏差和分散是不确定性的度量,大致对应于准确度和精确度您通常在准确性和精确度之间进行权衡,一些估计器可能更精确但不太准确,反之亦然。

MSE 是偏差和方差的总和:MSE=E[ββ^]2=E[βE[β^]+E[β^]β^]2=bias2+Var[β^]

例子。假设您的参数来自Breit Wiegner分布。 在此处输入图像描述

没有无偏估计量。偏差定义为bias=E[β^]β, 在哪里β- 真实价值,以及β^是它的估计器。在这种情况下E[β^]没有在数学上定义,因此您无法计算偏差。

这是一个极端的例子,其中根本不存在无偏估计器。

该声明的动机是拒绝 Rao-Blackwell 关于提供所谓的 UMVUE(统一最小方差无偏估计器)的一些非常重要的工作。这表明无偏估计量的方差有一个下限,如果你做到了,你通常会得到一个非常好的估计量。我们许多最流行的统计数据都是这种情况的特殊情况,例如正常数据的 z 检验或最小二乘回归模型(在线性估计器中,这使得 LS BLUE(最佳线性无偏估计器))。

最大的问题是当我们不再关心偏见时会发生什么?我们有更好的估计器吗?答案是肯定的。对于推理,大量有偏估计量在检测数据关联方面非常有效。评估估计器质量的一种好方法是使用其 MSE(均方误差),或者:

MSE(θ^)=E((θ^θ)2)

这可以重写为:

MSE(θ^)=E((E(θ^)θ)2)+E((E(θ^)θ^)2)

这是估计量的平方偏差和方差之和。

对于多元正态模型,具有比 UMVUE 更好的 MSE 的估计器的一个示例是岭回归。您的教授可能提到的“缩小到零”是缩小:高维统计数据的样本外有效性较差的趋势。使用多元正态 MLE 可以改善“平方误差损失”(即方差加平方偏差)。岭估计器使用 L2 惩罚来惩罚高度可变的估计。LASSO 使用 L1 惩罚并且还具有收缩特性。L1 惩罚迫使相对较小的估计值恰好为零,但是当收缩指的是优化 MSE 时,声称它们“收缩到零”是对术语的滥用。相反,我们限制。

http://www.few.vu.nl/~wvanwie/Courses/HighdimensionalDataAnalysis/WNvanWieringen_HDDA_Lecture234_RidgeRegression_20182019.pdf

作为后验的贝叶斯估计器使用共轭先验来最小化平方误差损失。

牢记这一点,如果 MSE 就是我们所要求的控制对象,那么您可以提出大量的估计量,这些估计量有一点偏差,但方差比 UMVUE 小得多。鉴于 UMVUE 估计器可能具有复杂的渐近分布,或者有时难以找到,或者有时不存在,我们经常寻找缺乏所有这些问题的有偏估计器。