泊松分布和统计意义

机器算法验证 r 分布 统计学意义 泊松分布
2022-03-29 14:33:09

假设我有一个每天获得 100 次点击的网站(mu = 100)。昨天我的网站获得了 130 次点击 (x = 130)。如果我假设泊松分布,那么获得 130 次点击的概率为:

> dpois(130, 100)
[1] 0.0005752527 # about 0.06%

所以这告诉我,由于概率低,我的网站获得 130 次点击是很不寻常的。

我对统计显着性的理解是,它用于确定实验的结果是由于偶然性还是某种确定性关系。

  1. 在这种情况下我将如何应用它?
  2. 应该使用什么测试?(它在 R 中吗?)

非常感谢您抽出宝贵时间。

注意:我在一次商务会谈中看到有人问了与此非常相似的问题,我不知道他们的意思,所以现在我只是想教育自己。我是 R 新手,但这似乎是最常用于此类问题的软件,因此我提出了要求。

2个回答

有两点需要说明:

  1. 不寻常的不是 130 的具体值,而是它比 100 大得多。如果你的命中数超过 130,那就更令人惊讶了。所以我们通常看 P(X>=130),而不仅仅是 P(X=130)。按照你的逻辑,即使是 100 次点击也是不寻常的,因为dpois(100,100)=0.04. 所以更正确的计算是看ppois(129, 100, lower=F)=0.00228这仍然很小,但没有你的价值那么极端。这甚至没有考虑到,异常低的点击次数也可能让您感到惊讶。我们经常将超过观察计数的概率乘以 2 来解释这一点。
  2. 如果你每天都检查你的点击量,迟早会发生罕见的事件。例如 P(X>=130) 恰好接近 1/365,所以这样的事件预计每年会发生一次。

首先,请注意,如果您假设真实比率为 100,那么这dpois(130, 100)将为您提供恰好130 次命中的概率。这个概率确实非常低。然而,在通常的假设检验框架中,我们计算的是观察到的结果或什至更极端的结果的概率。您可以通过以下方式获得泊松分布:

> ppois(129, lambda=100, lower.tail=FALSE)
[1] 0.002282093

因此,如果您假设真实比率为 100,则观察到 130 次点击甚至更多点击的概率约为 0.2%。按照惯例,如果该值低于 0.025(确实如此),我们将考虑这一发现(双边)时的“统计显着性” 。这意味着您愿意承担 5% 的风险,即您的决定(称偏差在统计上显着并拒绝该观察的真实率为 100 的假设)是错误的。也就是说,如果那天的真实比率确实是 100,那么在 2.5% 的情况下,观察到的比率实际上会是 120 或更大 ( ),而在 2.5% 的情况下,观察到的比率会是 81 或更低( )。因此,如果您使用,那么在 5% 的情况下,您的决定将是错误的。α=.05qpois(.975, lambda=100)qpois(.025, lambda=100)α=.05