大数据集的降维算法?

机器算法验证 主成分分析 因子分析 降维 大数据
2022-03-30 21:30:01

我有一个相当大的(5k 变量 x 120k 案例),我想在其上运行降维算法。我尝试在 SPSS 中对其进行简单的因子分析,但它(可以预见地)在 3GB 机器上运行。我通过将数据集截断为 2.5k 个变量和 25k 个案例得到了答案,但我开始想知道是否有除因子分析/PCA 之外的算法可以更好地处理数据集。

我的软件开发背景比我的统计学背景强得多。我希望有一种算法可以在 3GB 的 RAM 中更轻松地处理原始的非采样数据集。有人知道这样的算法吗?

如果这是一个常见问题,请原谅我;在发布之前,我尝试找到答案。

编辑:理想情况下,我希望在 R 或 SPSS 中使用现有的实现,但由于我是开发人员,因此即使是基于软件的解决方案(如“尝试numpy的此功能”)也会非常有帮助。

1个回答

随机森林是健壮的。它们不受异常值的影响。
梯度提升树非常适合拟合或过度拟合数据。该组合速度很快,可以处理经典或分类数据,并且可以处理非常大的数据。

梯度提升树的随机森林很容易处理这种复杂性和规模的问题。 http://dl.acm.org/citation.cfm?id=1755828