神经网络是否有可能获得与不同形式的监督学习一样高的分数?

数据挖掘 喀拉斯 scikit-学习 优化 理论
2022-01-31 13:12:46

我一直在使用 UCI http://archive.ics.uci.edu/ml/datasets/adult的成人人口普查收入数据集

我创建了两种不同的模型,一种使用带有 sklearn 的梯度增强分类器,另一种使用 Keras/Tensorflow 的神经网络。

所以我对代码提示或任何东西不感兴趣,但我有一个关于机器学习的一般性问题——我使用梯度增强分类器的准确度明显高于使用神经网络的准确度。

一般来说,我的(或任何真正的)神经网络是否有可能达到与任何其他类型的监督学习相同的准确度?将神经网络调得足够好是否需要大量的努力和肘部油脂?我正在使用相同的数据集,对 NN 和梯度增强分类器使用相同的特征工程。

1个回答

一般来说,没有。在表格数据方面,深度学习模型难以与之竞争。

如果我们转到kaggle ,如果人们竞相构建最好的模型,我们会发现通常对于这类数据表现最好的非集成模型是梯度提升树。更具体地说,它往往是XGBoost,或者现在更常见的是LightGBM表现最好。两者都是梯度提升树的高度优化实现。

特征工程和参数调整对于获得额外性能都很重要。但是差距并没有缩小,因为如果你在梯度提升模型上做同样的改进,你会得到同样的改进。

实际上,其他模型往往比神经网络从特征工程中获得更多收益,因为神经网络的优势之一是它们在训练时会执行一种自动特征工程。

神经网络通常在文本和图像等非结构化数据领域大放异彩。