有人可以澄清 PCA 的线性假设是什么吗?

数据挖掘 机器学习 预处理 主成分分析 降维 核心
2022-02-17 02:40:05

0

在过去的几个小时里,我一直在尝试寻找这个线性假设是什么。一些文章指出,您的自变量必须是线性关系,如果没有线性关系,则需要某种类型的转换。其他文章指出您的数据必须是线性可分的。它是哪一个?两者都有吗?

这是否意味着您首先必须检查自变量是否呈线性关系,然后在应用 PCA 后检查数据是否线性可分?

或者

在应用 PCA之前,检查数据是否可以使用线性规划等技术进行线性可分。

然后是 KERNEL PCA,在搜索后表明它是 PCA 的扩展,应用于非线性数据。这是否意味着关系中非线性或可分离的线性?

1个回答

PCA 是最好的(在均方误差意义上)线性分解方法。

PCA 被定义为一种正交线性变换,它将数据变换到新的坐标系,使得数据的某个标量投影的最大方差位于第一个坐标(称为第一主成分)上,第二大方差位于第二坐标,以此类推。 维基百科

PCA 中的术语“线性”是指:

一种。任何数据点都只是主要成分的线性组合。

湾。数据矩阵 (A) 可以通过线性相似变换分解为对角矩阵 (Σ)。

IE

A=UΣUT

或者

AU=UΣ

Σ是每个基向量的方差对角矩阵。

一眼就能看出,上式的线性代数清楚地说明了 PCA 中 Linearity 的含义。

另一方面,像 ICA(独立分量分析)这样的分解方法不能通过线性代数表示为上述 PCA,因为它们不仅需要去相关分量,而且需要独立分量,这是需要非线性的更强条件。

另见:https ://datascience.stackexchange.com/a/80361/100269