我有一个相当大的(5k 变量 x 120k 案例),我想在其上运行降维算法。我尝试在 SPSS 中对其进行简单的因子分析,但它(可以预见地)在 3GB 机器上运行。我通过将数据集截断为 2.5k 个变量和 25k 个案例得到了答案,但我开始想知道是否有除因子分析/PCA 之外的算法可以更好地处理数据集。
我的软件开发背景比我的统计学背景强得多。我希望有一种算法可以在 3GB 的 RAM 中更轻松地处理原始的非采样数据集。有人知道这样的算法吗?
如果这是一个常见问题,请原谅我;在发布之前,我尝试找到答案。
编辑:理想情况下,我希望在 R 或 SPSS 中使用现有的实现,但由于我是开发人员,因此即使是基于软件的解决方案(如“尝试numpy的此功能”)也会非常有帮助。