用分级数据估计指数分布的参数

机器算法验证 估计 卡方检验 意思是 指数分布 分箱
2022-03-10 11:25:28

我有以下数据,可以通过指数分布建模

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

为了测试数据是否遵循指数分布,我将使用卡方检验统计量。但为此我还需要计算 lambda (MLE=1X¯)。

所以我的问题是:如果最后一个区间是从 120 到无穷大,我们应该如何选择区间的中点?

3个回答

我不会将中点用于任何这些间隔(期望可能作为某些迭代过程的初始猜测)。

如果数据真的来自指数分布,那么每个 bin 中的值应该是右偏的;预计平均值将位于 bin 边界的平均值的左侧。

请注意,等式λ^=1X¯如果您拥有所有数据,则适用。对于分箱数据,您需要最大化分箱(即间隔删失)指数的可能性。

[对数似然的贡献nibin中的观察i——介于两者之间liui- 是nilog(F(li)F(ui))(其中两个术语在F是分布参数的函数)。]

由于指数缺乏记忆属性,如果你对指数的平均值有一个很好的近似值,你也有一个很好的近似值,即高于某个值的分布的平均值x0超过x0.

所以(假设你没有像我建议的那样直接最大化区间删失数据的可能性*),你可以从平均值的一些近似估计开始(m(0)说)并使用120+m(0)作为上尾的“中心”。

然后,这可以用来更好地估计参数(以及因此的平均值),从而获得每个 bin 中条件平均值的改进估计,包括顶部的。[如果你想要这种方法,我可能会倾向于直接做 EM。]

可以快速获得几个简单的平均值估计。例如,由于 41% 的值出现在 20 以下,exp(20λ^(0))=10.41这对应于接近的平均值的估计38. 或者,可以快速估算中位数(小于 30,可能约为 28),因此平均值应该在附近28/log(2), 或周围40.

这些中的任何一个都可以合理地用作初始猜测,以估计最后一个 bin 的条件均值在 120 以上多远。

* 最大化可能性的替代方法是最小化卡方统计量;在这种情况下,将使用对 df 的相同调整。卡方统计量相对容易计算,并且针对单个参数进行优化非常简单:
在此处输入图像描述

从理论上讲,您获得的样本的可能性将被写为其中是 bin 边界(假设每个 bin 表示观察到 ),是 bin中的观察数。在这里,您有bin,其中一般来说,最大化这个表达式的对数似然将需要一种数值方法。使用

L(λx)=j=1m(eλxj1eλxj)nj,
(x0,x1,,xm)xj1<Xxjnjjm=6(x0,x1,,xm)=(0,20,40,60,90,120,)(n1,,nm)=(41,19,16,13,9,2)Mathematica,我得到对数似然的导数为 这产生了数值解
λ=760sinh10λ+sinh20λ+1090coth15λ3940.
λ^0.025562426096803193.

如果您对封闭形式的简单估计感兴趣,UWSE(唯一权重空间估计器)可能会有所帮助。特别是,如果是区间中观察的相对频率,则: w[0,20]^  [0,20] 

 λUWSE^=ln(1w[0,20]^)20 

在这种情况下, ,因此, w[0,20]^=0.41 

 λUWSE^=0.02638164 

不过,关于 UWSE 只能说它是一个一致的估计。这是估算器完整说明的链接:https ://paradsp.wordpress.com/ - 一直滚动到底部。