置信度误差线和“中心点”:我们应该强调中位数吗?

机器算法验证 数据可视化 置信区间 时刻 不确定
2022-04-12 22:57:43

假设我想用一个点和围绕该点的 95% 置信区间绘制汇总数据。我的观点到底应该什么?均值、众数还是中位数?

我知道任何对称分布的均值 = 中值,并且数据分析中最常用的分布(t 分布和正态分布)具有均值 = 众数 = 中值的便利属性,但是对数正态分布呢:

1x2πσ2exp((lnxμ)2σ2)

转换回线性刻度?这是生物学中的常见情况(至少如果生物学家的统计数据更好的话)。

这是我对所有三个时刻的论点。我无法决定哪个是最有力的论据,所以我在这里问:

  1. 中位数 95% 置信区间的下限是将分布的下 2.5% 与上 97.5% 相除的值。同样,上限将下限 97.5% 与上限 2.5% 分开。因此,将上 50% 与下 50% (中值)分开的点应该是 95% CI 上限和下限之间的点。在对数正态分布的情况下,这等于eμ.

  2. 模式 如果我通过回归估计一个真实值,我想显示任何值中最有可能的值。那将是分布的高峰——模式。在对数正态分布的情况下,这等于eμσ2,这是集中趋势的三个矩量度中最低的。

  3. 意思沿着与模式相同的逻辑,但现在我不只是在寻找最正确的答案,而是如果我不正确的话,我会尽量减少错误的答案。在对数正态分布的情况下,这等于eμ+12σ2,这是集中趋势的三个矩量度中最高的。

    • 你认为哪个案例最有力?
    • 如果绘制的值来自回归模型与汇总原始数据,答案是否相同(注意:我知道原始数据的汇总只是单参数回归,但没有多少生物学家做出这种区分)。
    • 问题的核心:我们真正想用置信限的中心点显示什么?

编辑 01:@user603 的回答有一些很好的讨论和更多细节的要求。这是让我首先提出这个问题的一些背景:

假设我正在对添加到培养细胞中的不同药物的剂量抑制实验进行回归。我的回归模型是:

M=F+CF1+exp(H(lndoseIln)

在哪里M是测量,F是下渐近线(信号底),C是不受抑制的反应(上限),并且Iln是特定药物半抑制浓度的自然对数。我在假设下进行回归Iln是对数正态的,所以我得到一个回归值(和置信限)Iln. 我想在一个漂亮的图表中报告我的发现,以线性比例显示药物的半抑制浓度。

这个或任何科学测量报告的目标是对现实中的真实情况做出最好的猜测,我们可以通过实验和重复测量来近似。所以我想我的问题变得更加哲学化了:科学中的汇总统计数据真正试图展示什么?我们对值(模式)的最佳估计?我们有 50% 的机会超过/低于(中值)的估计值?我们与真相(均值)的可能偏差最小的估计值?我经常看到它教导置信限是基于标准误差(平均值),但在我看来,它真的应该是标准误差(中位数),而恰好是(平均值) ) 当我们处理正态分布和 t 分布的不确定性时。到目前为止,我倾向于同意@user603。

跟进问题:如果我确实想表现出意思±置信限或众数±置信限,如何计算?你能有模式的标准错误吗?

1个回答

中位数!

请注意以下优点:

  1. 中位数及其 CI(见下文)与数据的单调变换等价:
    med(g(x))=g(med(x))
    对于任何功能g域上的单调x(IElog()如果x>0)。
  2. 它是健壮的,因为当你替换任何分数时它的变化很小ε<1/2任意点的观察值(中位数的 min maxbias 属性)。
  3. 中位数是可以解释的,无需参考数据的潜在分布——它的置信区间也是如此——见下文。
  4. 中位数的 95% 置信区间是具有秩的最小观测值jk在哪里:
    j=n/21.96n/4
    k=n/2+1.96n/4
    对于肥尾和/或不对称分布,这会产生比高斯分布更精确的 CI(当基础数据是窄尾并从对称分布中提取时,精度也不会低很多)。在许多情况下(有界或离散分布),这些 CI 仍然有意义,而基于均值/标准差的情况则不能这么说。