对于非完美正态分布,置信区间是否会带来一些额外的误差?

机器算法验证 正态分布 置信区间 假设
2022-04-08 03:38:47

我并不是要挑剔,但我总是想通过统计数据确保我清楚地了解精确/理论测量和“现实生活”测量之间的界限。

例如,假设我们的人口是大学的学生,我们对他们的身高感兴趣。我们从名学生中随机抽取名,并取该样本的平均值。10010,000

当我们谈论该样本均值的置信区间时,我的理解是“假设我们假设样本均值的样本分布为正态分布,样本大小为,则有的机会我们的样本均值落在我们的采样分布(正态)曲线下的某个点,这样总体的真实均值将在标准差以内”。(这个对吗?)95%n=10095%2

然而,在我看来,由于在使用一定数量的 SD 的面积测量时假设完美正态性,我们的置信区间在真实正态分布和我们的实际分布之间存在额外误差,因此在从这个意义上说,它不是真正的置信区间,而是只有的置信区间,这意味着实际上我们可能有超过的时间离开。95%95%95%5%

这是正确的还是我错过了什么?

2个回答

当我们谈论该样本均值的 95% 置信区间时,我将其理解为“假设我们假设样本均值的样本分布为正态分布,样本大小为 n=100,则有 95% 的机会我们样本的平均值落在我们的采样分布(正态)曲线下的某个点,这样总体的真实平均值将在我们样本平均值的 2 个标准差以内”。(这个对吗?)

这并不完全正确,并且是统计学中最常见的误解之一。你可以在这里找到更多讨论95% 的置信区间意味着我们有 95% 的信心认为参数位于我们的区间内。另一种思考方式是,如果我们要多次重复采样,并每次创建置信区间,那么大约 95% 的置信区间将包含真实参数。

否则,当我们以这种方式诉诸 CLT 时(假设样本均值的正态性),您是正确的,因为分布永远不会准确,所以会增加一个错误。但是,我们对估计的信心可能会上升或下降。

这是来自Tsou 和 Royall (1995)的引述

基于 观测值的的流行置信区间区间,95%E(X)ntx¯±tn1sn1/2, 在哪里s2=(xx¯2)/(n1). 这实际上是一个95% 置信区间,如果X是 iidN(θ,σ2). 但如果这个模型不正确,那么覆盖概率等于名义置信系数 0.95 就不再正确。

我将在下面的 R 代码中模拟这种行为。我画大小的样本N=50首先是 Normal(5, 1) 总体,然后是t1均值分布μ=5. 在第一种情况下,由于总体是真正正态的,因此样本均值的分布完全是正态的。在第二种情况下,分布是偏移的t1尾部比正态分布长得多的分布。对于这些中的每一个,我模拟一个大小样本N=50, 1000 次,每次做置信区间,检查是否μ=5是否在区间内。我返回时间的比例μ是在区间内,如果所有假设都成立,这个数字预计为 0.95。

set.seed(100)
## True value of mu
mu <- 5
reps <- 1000 # to demonstrate definition of CI
N <- 50

counting <- vector(length = reps)
## making 95% CI
for(i in 1:reps)
{
    ## When data is really normal and true mean is mu = 5
    ## So CLT hold exactly
    data <-  mu + rnorm(N, mean = 0, sd = 1)
    mu.hat <- mean(data)
    se <- sd(data)/sqrt(N)
    quantile <- qt(.975, df = N-1)
    upper <-  mu.hat + quantile*se
    lower <- mu.hat - quantile*se

    ## Demonstrating how many of the CIs  have mu in them

    counting[i] <- ifelse(upper > mu && lower < mu, 1, 0)
}
mean(counting)
# [1] 0.946

counting <- vector(length = reps)
## making 95% CI
for(i in 1:reps)
{
    ## When data is from t distribution and true mean is still mu = 5
    ## With N = 100 CLT is only approximate
    data <-  mu + rt(N, df = 1)
    mu.hat <- mean(data)
    se <- sd(data)/sqrt(N)
    quantile <- qt(.975, df = N-1)
    upper <-  mu.hat + quantile*se
    lower <- mu.hat - quantile*se

    ## Demonstrating how many of the CIs  have mu in them

    counting[i] <- ifelse(upper > mu && lower < mu, 1, 0)
}
mean(counting)
# [1] 0.986

第一次,我非常接近 0.95,但第二次我要高得多。所以是的,如果我们的假设不成立,我们的信心将与 0.95 不同。然而,如果N大,数据分布接近正常,不会相差太远。

@Greenparker 的答案是一个很好的答案,它突出了一个常见的误解,但我想尝试更直接地解决你的问题。您说得对,如果您的模型错误(学生身高不正常),那么您的置信区间可能不像他们声称的那样准确。然后问题在于确定一个合适的模型,然后从该模型中为所涉及的参数构建置信区间(置信区间不仅仅与具有正态假设的模型相关联)。

在某些情况下,即使您的模型是错误的,您的统计数据也可能对模型假设的偏差具有稳健性(例如,您身高的正常假设是错误的,但您最终得到 94% 的置信区间而不是 95% 的置信区间。. .这很好)。

当然,正如@Greenparker 所说明的那样,中心极限定理非常强大,并且在许多情况下都成立。因此,如果您的样本量足够大,您通常可以摆脱正态性假设。

所有这一切都表明统计数据非常微妙,针对特定问题。