我有两个来自两种不同语言语料库的样本:样本一包含 82 个动词,样本 2 包含 89 个动词。我想比较一个特定动词类型的频率,让我们称它们为口头动词,在两个样本中,看看它们是否有显着差异(我会使用另一种我不希望差异的动词类型作为对照组对于 4 单元卡方检验)。最初,我想进行卡方检验,但后来意识到鉴于样本量不同,这是不可能的。我可以申请哪项测试?谢谢!
样本量不同时的卡方检验?
机器算法验证
卡方检验
2022-03-15 10:18:31
2个回答
您可以在示例中使用具有不同样本大小的卡方检验。您的“另一种动词类型”将是不是口头动词的动词,即所有其他动词
假设在您的示例中,样本 1的个是口头动词,个不是,而样本 2的个不是。然后你的四单元卡方检验表可能看起来像
10 72 | 82
20 69 | 89
__ ___ ___
|
30 141 | 171
在 R 中你可能会得到
chisq.test(rbind(c(10, 72), c(20, 69)))
# Pearson's Chi-squared test with Yates' continuity correction
#
# data: rbind(c(10, 72), c(20, 69))
# X-squared = 2.4459, df = 1, p-value = 0.1178
所以这个例子在统计上不显着
万一有人正在寻找它的 Python 版本,您可以使用 scipy ch2_contingency:https ://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html
使用与@Henry 相同的示例
import numpy as np
from scipy.stats import chi2_contingency
obs = np.array([[10, 72], [20, 69]])
chi2, p, dof, ex = chi2_contingency(obs)
print(chi2, dof, p)
> 2.44591778277931 1 0.11783094937852609
这与 R chisq.test 的结果相同
其它你可能感兴趣的问题