我可以使用似然比检验来比较从幂律分布中抽取的两个样本吗?

机器算法验证 假设检验 分布 大数据 似然比 幂律
2022-03-24 03:59:39

我必须比较两个大样本(N=106) 从幂律分布中提取的离散数据,以评估它们是否存在显着差异。我不能通过两个样本的 Kolmogorov-Smirnov 检验来做到这一点,因为我的数据是离散的。我想知道我是否可以做一些不同的事情。特别是,我想以下列方式应用似然比检验。

假设我有两个从两个幂律分布中抽取的大样本,s1p(α)s2p(α),我想评估估计的尾指数之间的差异,α^1α^2, 具有统计显着性——即,如果两个样本之间存在显着差异。

我的想法是建立一个似然比检验

Λ=2×l(H0|s1,s2)+2×[l(H1|s1)+l(H1|s2)],

在哪里l(H0|s1,s2),即空模型的对数似然,是合并样本的对数似然s1,s2, 然而l(H1|s1)+l(H1|s2),即替代模型的对数似然,是样本的对数似然之和s1s2.

然后,我将比较测试统计数据Λχ2自由度分布df=21=1,因为在替代模型中我需要估计两个参数(一个用于样本),而在空模型中,由于样本是合并的,我只需要估计一个参数。

是否有意义?或者任何人都应该撤销我的硕士学位。在统计学?:)

否则,任何人都可以提出更多方法来比较两个大样本(N=106) 从幂律分布中提取的离散数据?

谢谢!

2个回答

你所拥有的肯定是有效的。另一个只需要您只运行非池模型的选项(您估计两者α^1α^2) 是带有线性假设的Wald 检验

Ho:α1α2=0
H1:α1α20

如果您的样本量很大,那么从计算的角度来看,这种方法可能更有效(因为您只需要运行一个模型而不是两个)。除此之外,似然比和 Wald 检验都是渐近等效的。

我不能通过 Kolmogorov-Smirnov 检验来做到这一点,因为我的数据是离散的,

好吧,实际上您可以对离散数据使用 Komogorov-Smirnov 检验,只要:

(i) 您不使用假设数据是连续的测试统计量的分布。例如,您可以对您拥有的数据进行排列或随机化测试,如果需要,您可以使用 KS 统计量。这将处理离散性对检验统计量分布的影响。

(ii) 你准备好处理忽略离散性(低于名义显着性水平和相应的功率降低)并使用表格的后果。对于一百万的样本量,这实际上可能不是这样的问题;您始终可以使用模拟来了解您的实际意义所在。它在很大程度上取决于离散分布的“离散程度”。


也就是说,似然比检验也很有意义(但你怎么确定你有幂律?)。

您确实会按照您所说的进行。在小样本中,您可能会尝试计算 LRT 的一些简单变换的确切小样本分布,但对于大样本,没有理由费心所有这些。

(如果您的分布具有比您提到的参数更多的参数,则根据您给出的公式,任何其他参数都假定在样本中是恒定的。)

我建议看一下 Clauset、Shalizi 和 Newman (2009) [1] 的论文,据我回忆,该论文涵盖了连续和离散幂律,并讨论了 Kolmogorov-Smirnov 和似然比检验。

[1] Aaron Clauset, Cosma Rohilla Shalizi, MEJ Newman (2009),
“经验数据中的幂律分布”,
SIAM 评论 51 , 661-703
(also arXiv:0706.1062v2)