Minimax Linkage 是 Lance-Williams 层次聚类吗?

数据挖掘 机器学习 聚类 算法
2021-10-13 07:53:21

我找到了以下关于“通过 Minimax Linkage 使用原型进行层次聚类”的文章。

属性 6 中指出

不能使用Lance-Williams更新来编写 Minimax 链接。

给出了一个使用反例的简洁证明:

证明。图 9 显示了一个简单的一维示例,如果 minimax 链接遵循 Lance-Williams 更新,则该示例不会出现。上图和下图显示了(4)的右侧相同但左侧不同的两种点的配置;特别是,d(G1G2,H)=9对于上面板,而 d(G1G2,H)=8用于下面板。

但我不明白他们的证明。对于这两种情况(上面板和下面板),d(G1,H)=16,d(G2,H)=7,d(G1,G2)=5.

我看不出有任何理由α(G2)在第一种情况下必须等于α(G2)在第二种情况下。例如,G2有不同的红衣主教。

1个回答

快速阅读参考资料后,我的看法。

首先,Lance 和 Williams 的原始论文提到他们的线性方案仅适用于组合策略(并提供计算优势) 。minimax 联动是这样的组合策略吗?换句话说,它是否(线性地)取决于成对距离?根据极小距离的定义,很明显这是不可信的。

mean这就像统计学中的计算和median计算之间的区别。均值是线性的,而中值是非线性的。没有可以计算median的线性组合mean(尽管在某些有限的情况下它们可以重合)。

其次,作者没有提到α,β,γ最小最大链接的假设 Lance-Williams 方法中的参数。但在任何情况下,它们都是常数并且α()可以是相应簇大小的常数或有理函数(根据原始 Lance-Williams 参考)。

G2两个面板中的基数可能不同,但最小最大链接距离取决于集群的半径而不是基数(与平均或质心链接不同),因此两个示例具有相同的半径α(G2) 在这两种情况下都是相同的。

看到这种情况的另一种方法是证明的合理变体,其中 G2在这两种情况下都具有相同的半径和相同的基数,但配置不同

在此处输入图像描述

也许这样的证明会更清楚。但在这一点上,我将把它留在那里。