数据挖掘 - 如何构造用于计算 Krippendorff 的 alpha 的重合矩阵？ - 吾爱随笔录

我正在查看两份文档，以帮助我了解如何构建巧合矩阵，以便更好地理解 Krippendorff 的 alpha。我正在使用这两个：

在我看来，两者之间存在差异。可能没有，但我正在寻找一些帮助来确定我的理解是否错误，或者是否确实存在差异。

在链接 1 中，我正在查看 B 部分（“名义数据，2 个观察者，无缺失数据”），其中显示了重合矩阵。在链接 2 中，我正在查看“巧合矩阵”部分。

考虑链接 1 中的可靠性矩阵：

为了计算重合矩阵的元素，我们在链接2中有如下定义：

o_{v v^{'}} = \sum_{u = 1}^{N} \frac{\sum_{i \neq i^{'}}^{m} I (v_{i u} = v) I (v_{i^{'} u} = v^{'})}{m_{u} - 1} = o_{v^{'} v},

$o_{vv'}=\sum_{u=1}^{N}\frac{\sum_{i\neq i'}^{m}I(v_{iu}=v)I(v_{i'u}=v')}{m_u-1}=o_{v'v},$

在哪里 $u$ 是可靠性矩阵的水平元素（列）， $m_u$ 是列中实际存在的标签数 $u$ .

这看起来很简单。对于元素 $o_{aa}$ （或者 $o_{11}$ ）我们本应该：

o_{a a} = \frac{I (a = a) I (b = a)}{2 - 1} + \frac{I (a = a) I (a = a)}{2 - 1} + \frac{I (b = a) I (b = a)}{2 - 1} + \frac{I (b = a) I (b = a)}{2 - 1}

$o_{aa}=\frac{I(a=a)I(b=a)}{2-1}+\frac{I(a=a)I(a=a)}{2-1}+\frac{I(b=a)I(b=a)}{2-1}+\frac{I(b=a)I(b=a)}{2-1}$

+ \frac{I (d = a) I (b = a)}{2 - 1} + \frac{I (c = a) I (c = a)}{2 - 1} + . . .

$+\frac{I(d=a)I(b=a)}{2-1}+\frac{I(c=a)I(c=a)}{2-1}+...$

等等。显然，只有一个求和元素是非零的，即第二个元素。因此

o_{a a} = 1.

$o_{aa}=1.$

使用相同的公式/逻辑，我们得出

o_{b b} = 2.

$o_{bb}=2.$

但是如果我们看一下链接 1，它的重合矩阵元素的值会增加一倍，我不明白为什么。我什至不明白链接对为什么它会为巧合矩阵获取这些值的解释。

有人可以帮忙吗？