所以,假设我有一组 3D 点。假设这些点或多或少位于嵌入 3d 空间的平面上,那么我可以使用 PCA 将这些 3D 点“压缩”到该平面上的 2D 坐标,这样它们仍然可以很好地接近原始数据。
假设一半的 3d 点不靠近该平面,而是靠近其他平面。
如果我只是做 PCA 并减少到 2 维,我不会得到一个很好的近似值。
但是,如果算法会“看到”一些 3d 点很好地压缩到一个平面上,而其他点在另一个平面上很好地压缩并标记每个点并为每个集合分别执行 PCA(并将它们压缩为具有 2 个坐标加一位的点说明它属于哪个集合)它将更好地接近原始数据。
这种 PCA 算法的名称是什么,它也能够将输入数据分成最多 N 个集合(可能对集合的数量有一些惩罚),这样对于每个集合的降维都会产生比所有数据点更好的拟合会一起减少吗?
// 编辑:添加示例。如果仅在高暗空间中按距离进行聚类,则将到达具有更多聚类的不良聚类,并且每个聚类在向下投影时会具有更高的误差。
好的例子使用更少的集群,它们在二维子空间上的投影效果更好(绿色集群甚至能够压缩到一维空间)
