数据挖掘 - Minimax Linkage 是 Lance-Williams 层次聚类吗？ - 吾爱随笔录

Minimax Linkage 是 Lance-Williams 层次聚类吗？

数据挖掘机器学习聚类算法

2021-10-13 07:53:21

我找到了以下关于“通过 Minimax Linkage 使用原型进行层次聚类”的文章。

属性 6 中指出

不能使用Lance-Williams更新来编写 Minimax 链接。

给出了一个使用反例的简洁证明：

证明。图 9 显示了一个简单的一维示例，如果 minimax 链接遵循 Lance-Williams 更新，则该示例不会出现。上图和下图显示了（4）的右侧相同但左侧不同的两种点的配置；特别是， $d(G_1 \cup G_2,H) = 9$ 对于上面板，而 $d(G_1 \cup G_2,H) = 8$ 用于下面板。

但我不明白他们的证明。对于这两种情况（上面板和下面板）， $d(G_1,H) = 16$ , $d(G_2,H) = 7$ , $d(G_1,G_2) = 5$ .

我看不出有任何理由 $\alpha(G_2)$ 在第一种情况下必须等于 $\alpha(G_2)$ 在第二种情况下。例如， $G_2$ 有不同的红衣主教。

1个回答

快速阅读参考资料后，我的看法。

首先，Lance 和 Williams 的原始论文提到他们的线性方案仅适用于组合策略（并提供计算优势）。minimax 联动是这样的组合策略吗？换句话说，它是否（线性地）取决于成对距离？根据极小距离的定义，很明显这是不可信的。

mean这就像统计学中的计算和median计算之间的区别。均值是线性的，而中值是非线性的。没有可以计算median的线性组合mean（尽管在某些有限的情况下它们可以重合）。

其次，作者没有提到 $\alpha, \beta, \gamma$ 最小最大链接的假设 Lance-Williams 方法中的参数。但在任何情况下，它们都是常数并且 $\alpha(\cdot)$ 可以是相应簇大小的常数或有理函数（根据原始 Lance-Williams 参考）。

$G_2$ 两个面板中的基数可能不同，但最小最大链接距离取决于集群的半径而不是基数（与平均或质心链接不同），因此两个示例具有相同的半径 $\alpha(G_2)$ 在这两种情况下都是相同的。

看到这种情况的另一种方法是证明的合理变体，其中 $G_2$ 在这两种情况下都具有相同的半径和相同的基数，但配置不同。

也许这样的证明会更清楚。但在这一点上，我将把它留在那里。

其它你可能感兴趣的问题

上一篇文档分类中 fasttext 和 DAN 有什么区别？下一篇Word2Vec 需要多少训练数据？