样本量不同时的卡方检验?

机器算法验证 卡方检验
2022-03-15 10:18:31

我有两个来自两种不同语言语料库的样本:样本一包含 82 个动词,样本 2 包含 89 个动词。我想比较一个特定动词类型的频率,让我们称它们为口头动词,在两个样本中,看看它们是否有显着差异(我会使用另一种我不希望差异的动词类型作为对照组对于 4 单元卡方检验)。最初,我想进行卡方检验,但后来意识到鉴于样本量不同,这是不可能的。我可以申请哪项测试?谢谢!

2个回答

您可以在示例中使用具有不同样本大小的卡方检验。您的“另一种动词类型”将是不是口头动词的动词,即所有其他动词

假设在您的示例中,样本 1个是口头动词,个不是,而样本 2个不是。然后你的四单元卡方检验表可能看起来像108272208969

10  72  |  82
20  69  |  89
__ ___    ___
        |
30 141  | 171

在 R 中你可能会得到

chisq.test(rbind(c(10, 72), c(20, 69)))

#     Pearson's Chi-squared test with Yates' continuity correction
#
# data:  rbind(c(10, 72), c(20, 69))
# X-squared = 2.4459, df = 1, p-value = 0.1178

所以这个例子在统计上不显着

万一有人正在寻找它的 Python 版本,您可以使用 scipy ch2_contingency:https ://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

使用与@Henry 相同的示例

import numpy as np
from scipy.stats import chi2_contingency

obs = np.array([[10, 72], [20, 69]])
chi2, p, dof, ex = chi2_contingency(obs)
print(chi2, dof, p)
> 2.44591778277931 1 0.11783094937852609

这与 R chisq.test 的结果相同