哪个二项式预测区间适用于尾概率,即p^= 1 / np^=1/n对于大nn

机器算法验证 数理统计 二项分布 预测区间
2022-04-10 16:18:59

我正在研究一个具有以下特点的问题。

  • 可用数据很多 - 大约x106
  • CDF支持非负实数。FX
  • 我不知道FX
  • 我们可以假设数据是独立同分布的。
  • 我试图估计从抽取的未来样本低于样本最小值的概率。更重要的是,我想将此概率保持在特定值FXx(1)α.

当人们关心置信区间时,方法是选择某个值(因为具有非负支持)并使用,然后使用许多选项中的任何一个导出左尾二项式置信区间,例如应用 CLTCasella 或 Jeffreys 或 Agresti或许多方法中的任何其他方法。k>0xFX^(k)=p^=#(xik)n

和小来说,这似乎很脆弱,尤其是因为此外,在我的例子中,我们正在估计未来观察的预测区间在这些情况下是否有一个二项式预测区间可以很好地工作?nkk=x(1)

贝叶斯方法将直接估计并从那里开始工作。对于这个问题的狭窄范围,这似乎比严格必要的要难。F

回答“不,生活是不公平的,这个问题没有好的解决方案”如果有一个很好的引用也很有帮助。

1个回答

有一个简单的非参数预测限制。 回想一下,预测极限是由两个独立样本组成的过程X=x1,,xnY=y1,,ym,两个统计量ts, 和大小 1α. 当机会s(Y)小于t(X)α或更小,我们说t是单边预测下限s 大小的 1α. 有问题的 PL 使用最小的xi为了t(X). 目的是所有yj应该以高概率等于或超过 PL。等效地,s(Y)是最小的yj.

此 PL 工作时n观测值是独立同分布的,并且m额外的观察也是独立同分布的并且独立于第一个n观察。这些假设意味着所有n+m观察是可交换的,这反过来(很容易)意味着它们中最小的观察都在第一个n至少有概率n/(n+m). 大小是与最小相关的所有观测值中的一个(至少)位于n的值X. 这个机会不小于n/(n+m). 当共同基础分布是连续的时,它恰好是n/(n+m).

例如,最小的n=95价值观是一个95%预测下限m=5附加值。最小的n=106价值观只是一个50%预测下限m=106附加值。

类似的考虑(需要更多的组合复杂性)用于计算任何顺序统计量预测限制的覆盖范围有关概要,请参见 Hahn & Meeker 的第 5.4 节(“无分布预测区间至少包含km未来的观察。”)

参考

Gerald J. Hahn 和 William Q. Meeker,统计区间,从业者指南。 J.威利父子公司,1991 年。