机器算法验证 - 样本量不同时的卡方检验？ - 吾爱随笔录

样本量不同时的卡方检验？

机器算法验证卡方检验

2022-03-15 10:18:31

我有两个来自两种不同语言语料库的样本：样本一包含 82 个动词，样本 2 包含 89 个动词。我想比较一个特定动词类型的频率，让我们称它们为口头动词，在两个样本中，看看它们是否有显着差异（我会使用另一种我不希望差异的动词类型作为对照组对于 4 单元卡方检验）。最初，我想进行卡方检验，但后来意识到鉴于样本量不同，这是不可能的。我可以申请哪项测试？谢谢！

2个回答

您可以在示例中使用具有不同样本大小的卡方检验。您的“另一种动词类型”将是不是口头动词的动词，即所有其他动词

假设在您的示例中，样本 1的个是口头动词，个不是，而样本 2的个不是。然后你的四单元卡方检验表可能看起来像 $10$ $82$ $72$ $20$ $89$ $69$

10  72  |  82
20  69  |  89
__ ___    ___
        |
30 141  | 171

在 R 中你可能会得到

chisq.test(rbind(c(10, 72), c(20, 69)))

#     Pearson's Chi-squared test with Yates' continuity correction
#
# data:  rbind(c(10, 72), c(20, 69))
# X-squared = 2.4459, df = 1, p-value = 0.1178

所以这个例子在统计上不显着

万一有人正在寻找它的 Python 版本，您可以使用 scipy ch2_contingency：https ://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

使用与@Henry 相同的示例

import numpy as np
from scipy.stats import chi2_contingency

obs = np.array([[10, 72], [20, 69]])
chi2, p, dof, ex = chi2_contingency(obs)
print(chi2, dof, p)
> 2.44591778277931 1 0.11783094937852609

这与 R chisq.test 的结果相同

其它你可能感兴趣的问题

上一篇贝叶斯更新中的事件顺序重要吗？下一篇R中的lm和glm函数