如何解释这种行为:线性 svm 比非线性 RBF 做得更好

数据挖掘 机器学习 数据挖掘 支持向量机 xgboost
2022-02-19 00:27:51

我正在研究二进制类分类问题。每个样本都是一个 1x101 的向量,我有很多超过 150k 的数据样本我尝试训练一个线性 svm 和一个非线性 svm (RBF) “zscore normalization is used in both cases”。令人惊讶的是,线性比 svm (RBF) 做得更好。我试图通过考虑以下几点来解释这一点:

  1. 我相信我的功能质量不是很好。
  2. 我认为非线性情况经历了一种过度拟合。

我的问题是如何解释这种行为?!我的想法有意义吗?!我正在考虑使用 Adaboost 进行培训,这是个好主意吗?

1个回答

您的功能质量实际上可能比您想象的要好。如果它们提供线性可分性,非线性内核将比线性内核更容易过度拟合,从而导致您的结果。