机器算法验证 - 2x3 列联表的关联度量 - 吾爱随笔录

2x3 列联表的关联度量

机器算法验证相关性分类数据列联表关联度量

2022-03-21 14:30:45

我有一个 2x3 列联表 - 行变量是一个因子，列变量是一个有序因子（序数级别）。我想应用对称或不对称的关联技术。你建议我做什么？您认为哪种技术最合适？

4个回答

线性或单调趋势测试——M关联测量、@GaBorgulya 引用的 WMW 测试或 Cochran-Armitage 趋势测试——也可以使用，它们在 Agresti ( CDA , 2002, §3.4.6)中有很好的解释，第 90 页）。 $M^2$

后者实际上相当于测试在逻辑回归模型中，但它可以从统计量计算，定义为（用于大样本），其中是两个变量之间的样本相关系数（序数测量被重新编码为数字分数），通过将替换为（同上，第 182 页）。在任何统计软件中都很容易计算，但您也可以使用 R 中的coin包（我为相关问题提供了一个使用示例）。 $H_0:\; \beta = 0$ $M^2$ $(n-1)r^2$ $\sim\chi^2(1)$ $r$ $n-1$ $n$

边注

如果您使用 R，您将在 Laura Thompson 的R (and S-PLUS) Manual to Accompany Agresti's Categorical Data Analysis (2002)中找到有用的资源，该手册展示了如何使用 R 复制 Agresti 的结果，或者gnm包（及其配套包vcd和vcdExtra），它允许拟合行列关联模型（请参阅小插图，R 中的广义非线性模型：gnm 包概述）。

在对三水平因子进行排序的 2x3 列联表上，您可以使用秩相关（Spearman 或 Kendall）来评估两个变量之间的关联。

您也可以将数据视为在两组中观察到的有序变量。相应的显着性检验可以是 Mann-Whitney 检验（有许多联系）。这有一个相关的关联度量，即WMW 优势，与 Agresti 的广义优势比有关。

可以计算秩相关系数和 WMW 优势置信区间。我发现赔率更直观，否则我认为这两种衡量标准都是合适的。

将列因子的排序合并到分析中的一种方法是使用累积频率而不是单元频率。所以在你的桌子上你有：

f_{i j} = \frac{n_{i j}}{n_{∙ ∙}} i = 1, 2 j = 1, 2, 3

$f_{ij}=\frac{n_{ij}}{n_{\bullet\bullet}}\;\;\;\; i=1,2\;\;j=1,2,3$

其中“ ”表示该索引的总和。所以我建议建模： $\bullet$

g_{i j} = \sum_{k = 1}^{j} f_{i k}

$g_{ij}=\sum_{k=1}^{j}f_{ik}$

现在您基本上有了一个简单的关联假设，即索引无关紧要。所以你有了： $i$

E (g_{i j} | H_{0}) = \sum_{k = 1}^{j} \frac{n_{∙ k}}{n_{∙ ∙}}

$E(g_{ij}|H_{0})=\sum_{k=1}^{j}\frac{n_{\bullet k}}{n_{\bullet\bullet}}$

And then use the good old "entropy" test statistic:

T (H_{0}) = n_{∙ ∙} \sum_{i, j} g_{i j} l o g (\frac{g_{i j}}{E (g_{i j} | H_{0})})

$T(H_{0})=n_{\bullet\bullet}\sum_{i,j}g_{ij}log\left(\frac{g_{ij}}{E(g_{ij}|H_{0})}\right)$

Plugging in the numbers gives:

T (H_{0}) = \sum_{i, j} (\sum_{k = 1}^{j} n_{i k}) l o g (\frac{\sum_{k = 1}^{j} n_{i k}}{\sum_{k = 1}^{j} n_{∙ k}})

$T(H_{0})=\sum_{i,j}\left(\sum_{k=1}^{j}n_{ik}\right)log\left(\frac{\sum_{k=1}^{j}n_{ik}}{\sum_{k=1}^{j}n_{\bullet k}}\right)$

And you reject if this number is too big, it should be interpreted as a "log-odds" ratio which will help with choosing cut-offs.

You could use the Jonckheere Terpstra test. In SAS, you can get this in PROC FREQ with the /JT option on the tables statement. I didn't see a function for it in R, but there may be one out there.

其它你可能感兴趣的问题

上一篇进行逻辑回归时如何选择链接函数？下一篇使用网络显示相关性的参考资料？