如果我理解正确的话,主成分分析是一种降低数据维度的方法。
因此,如果我有一个 1000 个样本点的 12 维矩阵并将其缩减为 1000 个样本点的二维矩阵,那么样本点本身的值是否会以某种方式发生变化?还是只是扔掉了 10 个维度/列,剩下 2 个?
如果我理解正确的话,主成分分析是一种降低数据维度的方法。
因此,如果我有一个 1000 个样本点的 12 维矩阵并将其缩减为 1000 个样本点的二维矩阵,那么样本点本身的值是否会以某种方式发生变化?还是只是扔掉了 10 个维度/列,剩下 2 个?
是的,新的二维值将是原始 12 维点在两个主成分(向量)上的投影。
请参考这个清晰教程中的第一个图:http: //lazyprogrammer.me/tutorial-principal-components-analysis-pca/
PCA 是一种转换:它从原始数据创建新的(转换后的)特征。一般来说,如果您选择较少的维度(例如,您选择减少 m=12 -> n=2 维度),它是有损的,并且会丢弃原始数据的一些信息内容。n 越高,丢失的越少,对于 m=n,您保留了所有原始信息(尽管您仍然对数据进行矢量变换,因此提取的特征是 != 原始数据)。
选择参数 n=2(主成分的数量)是您的(任意)决定,您可以尝试其他值或探索一个范围。您可以选择 n=5、n=9,甚至可能的最大值:n=12。
有关如何选择 n 的标准经验法则,请参阅例如 选择要保留的主成分数量
(碎石图、解释总方差的比例、平均特征值规则、对数特征值图等)
其中 Scree Plot 是一个简单的线段图,它显示了数据中总方差的比例,如每台 PC 所解释或表示的那样。通常,碎石图会有一个拐点,其中 PC 的数量解释了大部分方差,如果是这样,这可能会建议您使用 n 的上限。
那里也讨论了其他经验法则。你可以找到大量关于这个主题的文章。
另请参阅例如要采用多少主成分?
是的。PCA 更改数据的值。它转换数据并将其投影到一个新的维度。
这个视频很适合学习PCA