什么是无监督学习的流形?

数据挖掘 机器学习 神经网络 无监督学习
2022-02-14 01:52:56

我一直在观看 G. Hinton 博士关于机器学习中的神经网络的讲座,在其中一场讲座中,他解释了无监督学习的目标是什么。

我无法理解高维输入(例如图像)位于低维流形(或几个这样的流形)上或附近的部分。究竟什么是流形,为什么会这样?

谢谢!

町

2个回答

取决于你问谁,但通常歧管只是(高)维空间中具有有限维度的一些结构:一条线、一条曲线、一个平面、一块岩石、一个球体、一个球、一个圆柱体、一个圆环、一个“斑点” ......这样的事情:

在此处输入图像描述

如果您问数学家 ,他们会说这是描述“曲线”(维度 1)或“曲面”(维度 2)或 3D 对象(维度 3)的通用术语......对于任何可能的有限维度一维流形只是一条曲线(线,圆......)。二维流形只是一个表面(平面、球体、圆环体、圆柱体......)。三维流形是一个“完整对象”(球、完整立方体、我们周围的 3D 空间……)。n

为了回答你的问题,他指的是这个高维空间中的信息可以被压缩并保存在一些更小的空间中。(记住在包含有关它们的信息的某些空间中量化时的图像)

流形是存在于高维空间中的某种低维结构。典型的例子是瑞士卷数据集,它看起来就像一个螺旋线,其值沿曲线单调变化(这里用颜色表示)。

在此处输入图像描述.

总体思路是颜色值有一个简单的一维表示,如果您展开卷,就可以看到它。但是,如果您查看原始空间并尝试进行某种最近邻聚类,您可能会确定深蓝色和黄绿色样本最相似,因为它们在原始空间中最接近。找到低维流形允许您仅沿流形轴(在本例中为螺旋形)进行聚类,从而为您提供哪些样本彼此接近的“正确”表示。