我有一个包含 1000 万个观测值和 100 万个稀疏特征的数据集。我想建立一个二元分类器来预测感兴趣的特定特征。
我的主要问题是如何处理百万特征(从统计和计算的角度来看)。我知道可以使用例如小批量优化技术或 Spark 来训练分类器进行很多观察,但这并不能解决具有很多特征的问题。我也明白,对于中等大小的数据集,可以使用经典的降维技术,但我不知道可以处理这种大小的数据集的降维方法。
(如果特征是密集的而不是稀疏的,这个问题的答案会如何变化?)
我有一个包含 1000 万个观测值和 100 万个稀疏特征的数据集。我想建立一个二元分类器来预测感兴趣的特定特征。
我的主要问题是如何处理百万特征(从统计和计算的角度来看)。我知道可以使用例如小批量优化技术或 Spark 来训练分类器进行很多观察,但这并不能解决具有很多特征的问题。我也明白,对于中等大小的数据集,可以使用经典的降维技术,但我不知道可以处理这种大小的数据集的降维方法。
(如果特征是密集的而不是稀疏的,这个问题的答案会如何变化?)
您可以使用过滤器特征消除,这是一种在基于相关性开始建模之前减少维度的技术,我的建议是将您的特征划分为多个部分并进行特征过滤,并从每个部分中提取不相关的特征,直到您有更小的集合。您也可以在观察的子集上执行此操作,而不是全部 1000 万。