数据挖掘 - 选择距离度量并测量相似度 - 吾爱随笔录

我正在尝试确定哪种特定算法最适合我的用例。

我有一个城市中大约 1000 座物理建筑物的数据集，具有位置、距离、建造年份和其他特征等特征空间。对于每个新数据点，一座建筑物，我想找到 3-5 座最相似的建筑物基于特征空间比较。

我将相似性定义为特征的加权比较。我想遍历整个特征空间（带过滤器的位置）并选择与新建筑物数据点匹配的 3-5 个最相似的建筑物。

这是我的数据的样子：

我想知道什么相似性度量是有意义的？我在 python 中工作，所以更喜欢 pythonic/sci-kit 学习方式。