数百万个特征的降维

数据挖掘 大数据 降维
2022-02-17 21:33:43

我有一个包含 1000 万个观测值和 100 万个稀疏特征的数据集。我想建立一个二元分类器来预测感兴趣的特定特征。

我的主要问题是如何处理百万特征(从统计和计算的角度来看)。我知道可以使用例如小批量优化技术或 Spark 来训练分类器进行很多观察,但这并不能解决具有很多特征的问题。我也明白,对于中等大小的数据集,可以使用经典的降维技术,但我不知道可以处理这种大小的数据集的降维方法。

(如果特征是密集的而不是稀疏的,这个问题的答案会如何变化?)

2个回答

这个问题与这个问题非常相似

我认为,确实,在 PCA 之上使用内核将证明自己很有用。

他们还讨论了不同技术的实现,这些技术在如此多的功能上证明自己是可靠的。

您可以使用过滤器特征消除,这是一种在基于相关性开始建模之前减少维度的技术,我的建议是将您的特征划分为多个部分并进行特征过滤,并从每个部分中提取不相关的特征,直到您有更小的集合。您也可以在观察的子集上执行此操作,而不是全部 1000 万。