我正在尝试了解主成分分析或偏最小二乘法的统计测试过程。
Step 1. PCA: 感觉自己对PCA的理解还不错:你找到数据的协方差矩阵描述的椭球体,然后依次取最大的变异轴(主成分1),然后取第二大的(主要成分 2),依此类推。如果椭球长且被拉伸,那么变化主要是沿着第一主成分(对应于椭球最大特征值的特征向量)。如果椭圆体是一个平面“圆盘”,那么数据的变化可以通过两个主成分等很好地解释。
我也明白,在选择(例如)仅使用前两个主成分后,所有数据点都可以绘制在“分数”图上,该图显示,对于每个数据点,投影到由前两个主成分跨越的平面中。同样,对于“载荷”图(我认为),您将第一个和第二个主成分写为输入变量的线性组合,然后对于每个变量,绘制它对第一个和第二个主成分的贡献系数。
步骤 2. PLS 或 PLS-DA: 如果数据上有标签(假设是二元类),则构建线性回归模型以使用第一和第二主成分来区分 0 类(对于数据点,这意味着 ) 来自第 1 类(对于数据点,这意味着),首先将所有数据投影到仅位于由第一和第二主成分跨越的平面中,然后将投影输入数据回归到。该回归可以写成(第一步)沿(第一个和第二个主成分),然后(第二步)第二个仿射变换,从预测这些变换一起可以写成单个仿射变换。
中的变量在预测类中的重要性: 这是我可以使用一些帮助的地方(除非我已经离开了,在这种情况下告诉我!)。您如何测试输入变量(即尚未投影到主成分(超)平面上的特征)是否在回归中具有统计显着系数?定性地,中离零较远的系数(即,幅度较大的正值和负值)表明该变量的贡献较大。
我记得看到正态分布数据的线性回归 t 检验(以测试系数是否为零)。这是标准方法吗?在那种情况下,我猜想来自的变量在步骤 0 中已经转换为大致正态分布(即在执行任何其他步骤之前)。
否则,我可以看到执行置换测试(通过运行整个过程数千次,每次置换以打乱标签,然后将来自未打乱分析的中的每个单个系数与来自打乱分析的系数分布进行比较)。
你能帮我看看我的直觉在哪里失败吗?我一直在尝试使用类似的程序查看论文,看看它们做了什么,而且通常情况下,它们像泥浆一样清晰。我正在为其他一些研究人员准备一个教程,我想把工作做好。