为什么我们使用方差来计算合并标准差?

机器算法验证 方差 t检验 标准差 汇集
2022-03-23 03:12:26

为什么我们通过平均方差并取平方根来计算合并标准差,而不是直接平均标准差?

编辑:这是在为配对样本 t 检验创建效果大小的背景下出现的,但如果答案因上下文而异,我也有兴趣了解这一点。

1个回答

我们使用方差而不是标准差,因为方差具有特殊属性。

特别是变量和差的方差有一个简单的形式,如果变量是独立的,结果就更简单了。

也就是说,如果两个变量是独立的,则差异的方差是方差的总和(“方差相加”——但标准差不相加)。

具体来说,在一个双样本 t 检验中,我们试图找出样本均值差异的标准差。我们可以使用方差的基本属性(上面链接)来查看单个样本均值的方差是σ2/n,我们可以通过s2/n对于每个样本。

现在我们有了每个均值的方差,我们可以使用“方差相加”的结果来得到均值差的方差是样本均值的两个方差之和。因此,均值差分布的标准差(均值差的标准误差)是该总和的平方根。

这对于 Welch t 检验非常直接,我们估计Var(X¯Y¯)经过sx2/nx+sy2/ny. 等方差版本使用相同的想法工作,但由于假设方差相同,因此我们产生了一个单一的总体估计σ2从两个样本中。也就是说,在除以两组的总 df 之前,我们将与相应组均值的所有平方偏差加在一起(每个都损失 1 个 df,因为我们测量了与单个组均值的偏差)。这对应于个体方差的 df 加权平均值的一种形式sp2=wxsx2+wysy2在哪里wx=dfx/(dfx+dfy). 然后是合并方差的单一估计sp2用于估计均值差异的方差。自从Var(X¯)=σ2/nxVar(Y¯)=σ2/ny, 和的方差再次是方差的总和,所以Var(X¯Y¯)=σ2/nx+σ2/ny,然后我们再次通过替换来估计σ2由估计sp2.

在任何一种情况下,我们都可以通过除以相应的标准误差估计来标准化我们的均值差异。在这两种情况下,这都是t-统计来自。

在其他情况下也会出现类似的结果。