机器算法验证 - 线性支持向量机如何在多维特征空间中发挥作用？ - 吾爱随笔录

机器算法验证机器学习支持向量机高维

2022-04-14 20:20:10

线性支持向量机如何在多维特征空间中发挥作用？我无法想象线性 SVM 如何在超过 2 个维度上执行分类。此外，何时选择线性 SVM 和基于内核的 SVM？例如，我的数据集有超过 5000 个实例和 4000 个特征。

2个回答

线性 SVM 始终以完全相同的方式工作，即使您无法在脑海中围绕几何图形进行思考。人类通常不擅长在超过三个维度进行推理，所以不要让你担心。

想象一下一维的线性 SVM。这看起来像这样：

+ + + + + | - - - -

在哪里 | 是你的决策边界。一维的超平面是一个截止值。在二维中，你得到一条线。在三个维度中，您会得到一架飞机，...

输入空间中有 4000 个特征，您可能无法通过映射到更高维特征空间（= 使用内核）来获得足够的好处，以使其值得额外的计算费用。因此，使用线性内核。

事实上，总是先使用线性内核，看看你是否得到满意的结果。通常，当且仅当您使用线性内核没有获得好的结果时，您才可以尝试使用非线性内核。

我什至被困在同一个问题上一段时间，然后我推荐了一些网站，我可以通过这些网站获得直觉。

如果您无法在脑海中想象，请考虑这个..

对于一维数据集，一个点将适合区分不同的类。

为二维数据平面增加一个维度，单行可以在应用/不应用内核的情况下对其进行区分。

另一个增加类似于在三维中具有数据，但在二维中具有超平面或分离平面，因为我们知道平面是 2d。

根据以下维基百科文章的起跑线，您可以开发直觉。

超平面只是比数据少一维，以便将数据点分成多个类。

那么对于 4000 个特征空间，它将是 3999 维平面（用于分离的平面）或简单地收集具有 3999 维的点以分离数据点。

其它你可能感兴趣的问题