数据挖掘 - 数百万个特征的降维 - 吾爱随笔录

我有一个包含 1000 万个观测值和 100 万个稀疏特征的数据集。我想建立一个二元分类器来预测感兴趣的特定特征。

我的主要问题是如何处理百万特征（从统计和计算的角度来看）。我知道可以使用例如小批量优化技术或 Spark 来训练分类器进行很多观察，但这并不能解决具有很多特征的问题。我也明白，对于中等大小的数据集，可以使用经典的降维技术，但我不知道可以处理这种大小的数据集的降维方法。

（如果特征是密集的而不是稀疏的，这个问题的答案会如何变化？）