如何确定在以下数据集中应用什么算法(包括)

数据挖掘 机器学习 主成分分析
2022-02-14 00:28:15

我有一个数据集,我将使用它来构建分类器。下面我使用 绘制了数据的第一和第二主成分sklearn.preprocessing.PCA由于两个不同的类没有很好地分开,所以线性分类器在这里不起作用。

我的问题是哪种分类器最适合这种情况。

我的研究带到了KNN但我的直觉是,班级比例高度不平衡k,KNN 中的较大值总是倾向于较大的班级数量。训练它将是一场噩梦,SVM因为数据集中有许多观察结果,而且花费的时间太长。

n_components = 2 的 PCA

2个回答

请注意,对目标进行降维可能会导致流形问题。你可以在图片中看到。最终发生的是目标信息丢失。

瑞士卷的歧管问题

您提供的信息不足以猜测哪种算法会更好。

通常将问题的维度减少到较低维度的空间以绘制您想要决策边界的位置并不是一个好主意。

人类很难理解这些算法如何在大规模维度上进行决策边界,这就是为什么最好采用经验方法。尝试其中一些,选择一个指标,然后选择得分更高的一个。

您在这里提供的信息确实是不够的。PCA 图像仅表明使用前两个主成分不会带来任何好处。不过,使用前三个(或更多)主成分可能会有所帮助。

如果您真的需要帮助,您需要提供更多信息。您的输入数据的结构和分布是什么?