线性支持向量机如何在多维特征空间中发挥作用?我无法想象线性 SVM 如何在超过 2 个维度上执行分类。此外,何时选择线性 SVM 和基于内核的 SVM?例如,我的数据集有超过 5000 个实例和 4000 个特征。
线性支持向量机如何在多维特征空间中发挥作用?
机器算法验证
机器学习
支持向量机
高维
2022-04-14 20:20:10
2个回答
线性 SVM 始终以完全相同的方式工作,即使您无法在脑海中围绕几何图形进行思考。人类通常不擅长在超过三个维度进行推理,所以不要让你担心。
想象一下一维的线性 SVM。这看起来像这样:
+ + + + + | - - - -
在哪里 | 是你的决策边界。一维的超平面是一个截止值。在二维中,你得到一条线。在三个维度中,您会得到一架飞机,...
输入空间中有 4000 个特征,您可能无法通过映射到更高维特征空间(= 使用内核)来获得足够的好处,以使其值得额外的计算费用。因此,使用线性内核。
事实上,总是先使用线性内核,看看你是否得到满意的结果。通常,当且仅当您使用线性内核没有获得好的结果时,您才可以尝试使用非线性内核。
我什至被困在同一个问题上一段时间,然后我推荐了一些网站,我可以通过这些网站获得直觉。
如果您无法在脑海中想象,请考虑这个..
对于一维数据集,一个点将适合区分不同的类。
为二维数据平面增加一个维度,单行可以在应用/不应用内核的情况下对其进行区分。
另一个增加类似于在三维中具有数据,但在二维中具有超平面或分离平面,因为我们知道平面是 2d。
根据以下维基百科文章的起跑线,您可以开发直觉。
https://en.m.wikipedia.org/wiki/Hyperplane
超平面只是比数据少一维,以便将数据点分成多个类。
那么对于 4000 个特征空间,它将是 3999 维平面(用于分离的平面)或简单地收集具有 3999 维的点以分离数据点。
其它你可能感兴趣的问题