PCA 和 PLS:检验变量的显着性

机器算法验证 统计学意义 主成分分析 偏最小二乘法
2022-04-02 05:09:19

我正在尝试了解主成分分析或偏最小二乘法的统计测试过程。

Step 1. PCA: 感觉自己对PCA的理解还不错:你找到数据的协方差矩阵描述的椭球体,然后依次取最大的变异轴(主成分1),然后取第二大的(主要成分 2),依此类推。如果椭球长且被拉伸,那么变化主要是沿着第一主成分(对应于椭球最大特征值的特征向量)。如果椭圆体是一个平面“圆盘”,那么数据的变化可以通过两个主成分等很好地解释。

我也明白,在选择(例如)仅使用前两个主成分后,所有数据点都可以绘制在“分数”图上,该图显示,对于每个数据点投影到由前两个主成分跨越的平面中。同样,对于“载荷”图(我认为),您将第一个和第二个主成分写为输入变量的线性组合,然后对于每个变量,绘制它对第一个和第二个主成分的贡献系数。D(i)D(i)

步骤 2. PLS 或 PLS-DA: 如果数据上有标签(假设是二元类),则构建线性回归模型以使用第一和第二主成分来区分 0 类(对于数据点,这意味着 ) 来自第 1 类(对于数据点,这意味着),首先将所有数据投影到仅位于由第一和第二主成分跨越的平面中,然后将投影输入数据回归到该回归可以写成(第一步)沿iY(i)=0iY(i)=1X1,X2YPC1,PC2(第一个和第二个主成分),然后(第二步)第二个仿射变换,预测这些变换一起可以写成单个仿射变换YPC1,PC2YAffine(Affine(X))YC(AX+B)+D=EX+F

中的变量在预测类中的重要性:XY 这是我可以使用一些帮助的地方(除非我已经离开了,在这种情况下告诉我!)。您如何测试输入变量(即尚未投影到主成分(超)平面上的特征)是否在回归中具有统计显着系数?定性地,中离零较远的系数(即,幅度较大的正值和负值)表明该变量的贡献较大。YEX+FE

我记得看到正态分布数据的线性回归 t 检验(以测试系数是否为零)。这是标准方法吗?在那种情况下,我猜想来自的变量在步骤 0 中已经转换为大致正态分布(即在执行任何其他步骤之前)。X

否则,我可以看到执行置换测试(通过运行整个过程数千次,每次置换以打乱标签,然后将来自未打乱分析的中的每个单个系数与来自打乱分析的系数分布进行比较)。YE

你能帮我看看我的直觉在哪里失败吗?我一直在尝试使用类似的程序查看论文,看看它们做了什么,而且通常情况下,它们像泥浆一样清晰。我正在为其他一些研究人员准备一个教程,我想把工作做好。

1个回答

变量的包含/排除(步骤 3):

我了解您询问要在建模中包含哪些原始测量通道。

  • 这样的决定对您的数据是否明智?
    例如,我主要处理光谱数据,PLS 经常成功地用于这些数据。良好测量的光谱在相邻变量之间具有高度相关性,并且光谱数据集中的相关信息往往分布在许多变量上。PLS 非常适合此类数据,但在变量到变量的基础上决定用于模型的变量恕我直言通常是不合适的(关于基于应用程序的光谱知识包含/排除光谱范围的决定,恕我直言更好的方法)。
  • 如果您的数据和应用程序变量选择是自然选择,那么 PLS 是您想要的正则化技术吗?
    您可能想阅读统计学习要素中关于正则化 (3.4 - 3.6) 的部分,其中将 PLS 作为正则化与其他正则化方法进行了比较。我的观点是,与例如 Lasso 相比,PLS 是一种正则化技术,它不会从模型中完全排除变量。因此,我会说 PLS 可能更适合这种行为合理的数据,但在这种情况下,变量选择不是自然选择(例如光谱数据)。
  • 您的数据是否包含足够的信息来进行这种数据驱动的模型优化?对每个输入变量进行 t 检验是一种大规模的多重检验情况。
    恕我直言,PLS(或其他正则化技术)的要点是避免需要这种变量选择。

对步骤 2 的备注:

如果您在 PCA 分数空间中建立线性回归模型,这通常称为化学计量学中的主成分回归 (PCR)。它与 PLS 模型不同。

如何找出 PCA/PLS 模型使用了哪些变量?

有几种方法可以解决这个问题。显然,PCA 载荷或 PLS 权重为 0 的变量不会进入模型。查看负载是否足够或是否需要更进一步取决于您的数据:如果数据集未标准化,您可能需要计算每个变量对各自 PCA/PLS 分数的“贡献”多少。
我们使用 LDA 进行此操作的文献(工作方式相同):C. Beleites、K. Geiger、M. Kirsch、SB Sobottka、G. Schackert 和 R. Salzer:星形细胞瘤组织的拉曼光谱分级:使用软参考信息,肛门。生物肛门。Chem., 400 (2011), 2801 - 2816.链接页面有官方网页和我的手稿的链接。

您还可以导出例如负载(或贡献)的引导分布并查看它们。对于简单的 PCR 和 PLS 系数,因为 Y 变量会自动“对齐”系数。PCA 和 PLS 分数需要更多注意,例如需要考虑方向的翻转,并且您可能决定将模型视为等效的,然后用于进一步建模的分数只是彼此的旋转或缩放版本. 因此,您可能希望首先对齐分数,例如通过 Procrustes 分析。上面链接的论文也讨论了这一点(对于 LDA,但同样,这些想法也适用于其他双线性模型)。

最后但并非最不重要的一点是,您需要注意不要过度解释模型,并且如果变量之间存在相关性,您可能会遇到重要变量的系数在引导实验中经常触及零标记的情况。但是,您能否得出结论取决于您的数据类型。