我想在 SPSS 中进行主成分分析 (PCA)。PCA 的一个假设是没有明显的异常值。如何在 SPSS 中识别异常值?
如何识别异常值并进行稳健的 PCA?
机器算法验证
spss
主成分分析
异常值
强大的
2022-04-17 05:59:32
1个回答
Robust PCA 是一个非常活跃的研究领域,以合理的方式识别和去除异常值是相当微妙的。(我在这个领域写了两篇论文,所以我对它有点了解。)虽然我不了解SPSS,但您可以在这里实现相对简单的算法(1) 。
这个算法(不是我的)有严格的保证,但只需要一些基本的计算和一个“while”循环。假设您正在搜索主成分,基本程序是
- 根据您的数据计算 PCA,
- 将您的数据投影到顶部主要成分,
- “随机”丢弃投影“太大”的数据点之一,并且
- 重复这个“几次”。
引号中的所有内容都是启发式的;您可以在论文中找到详细信息。
这个过程背后的想法是,在 PCA 之后的投影很大的向量可能对估计的影响太大,所以你可能想把它们扔掉。事实证明,选择“随机”扔掉的东西实际上是一件合理的事情。
如果有人真的想花时间为此编写 SPSS 代码,我相信 @cathy 会很感激的。
其它你可能感兴趣的问题