我能找到一个最小化某些向量的最大距离比的映射吗?

人工智能 深度学习 数据预处理
2021-11-01 10:50:27

假设我们有几个向量点。我的目标是区分向量,所以我想让它们彼此远离。其中一些已经彼此相距很远,但其中一些可以定位得很近。

我想得到一个特定的映射函数,可以将这些彼此靠近的点分开,同时仍然保留已经彼此远离的点。

我不在乎映射的形式是什么。由于映射将用作预处理,因此它不必是可微的甚至是连续的。

我认为这个问题有点类似于“最小化点之间的最大距离比”。或许这个问题可以理解为将破碎的图拉伸成球状的各向同性图。

我用谷歌搜索了一个小时,但似乎人们通常有兴趣从一堆数据中选择具有如此好的特征的点,而不是将现有的向量点映射到更好的点。

所以,总而言之,我找不到任何有用的东西。

也许您可以认为“神经网络在解决分类问题时会自然而然地学习它”。但它失败了。因为它已经在与太多的包袱作斗争了。所以,这就是为什么我想帮助我的网络进行预处理。

1个回答

一个有趣的问题。我会首先找到n每个数据点的最近邻,然后计算它们的质心c以及该点d到其第 n 个最近邻的距离。越小,d给定点周围的密度越大。然后,您可以使用合适的步长c以与距离成反比的方式迭代地远离它们的每个点。d这将分散集群。

但这不会帮助您转换数据集中的任何新点,也许您可​​以R^n -> R^n通过使用其他神经网络来学习这种任意映射并将其应用于新样本?

这是我想到的第一个临时想法。看到这个的 2D 动画会很有趣。

更严格的方法可能是变分自动编码器,您可以将数据嵌入到近似正态分布的低维空间中。但这并不能保证集群会像您希望的那样分散。另一种损失函数将对此有所帮助,例如,每个点到其原始第 n 个最近邻居的距离应尽可能接近一个。