人们鄙视在高维空间中使用欧几里德距离,因为它不是一个可行的度量。人们认为,随着维数的增加,两个向量之间的距离会变得非常大。
但对我来说:当我们添加更多维度时,高维空间中两点之间的欧几里德距离会随着我们添加更多维度而变得更大,这是有道理的。我不太明白这里的问题。
膨胀两个向量之间的距离如何使 metirc 本身无效?距离的大小可能更大,但为什么它仍然不能成为一个可行的比较指标?
统计学习的书元素给出了一个很好的画面,试图描述欧几里距离失败的原因:
好吧——那又怎样?两点之间的距离越来越大?为什么这会使指标无效?当我们添加新维度时,这两个向量之间的距离会更大,这是完全有道理的,因为它们在新维度中彼此更加不同。
让我们想一个例子,我们收集了一堆玩具的长度:
- 5.3
- 2.2
- 1.2
基于欧几里得距离,新玩具 4.2 的最近点是 5.3。现在让我们添加另一个维度,称为这些玩具的宽度。
- <5.3、5.6>
- <2.2、2.1>
- <1.2, 0.4>
我们的新点是<4.2, 0>。现在最近的点是 <2.2, 2.1>。这是有道理的。因为那里的第二个维度有很大的不同。人们认为距离变得不那么有意义了。但我仍然可以在这里成功应用它,由此产生的距离对我来说非常有意义。
无论如何,我并不完全理解这种对欧几里得距离的仇恨——这对我来说似乎很有意义!
