基于 PCA 中低方差分量的数据结构有意义推断

机器算法验证 聚类 主成分分析 解释 直觉 pcoa
2022-03-31 04:18:18

我遇到的许多微生物组(微生物生态学)论文都使用主成分分析(PCA)或主坐标分析(PCoA)来对数据做出结论。许多这些声明是基于具有低方差的组件/坐标,或者通过使用较高的组件来显示在较低的主组件中不可见的模式。尽管我在这里发现了一些涵盖 PCA/PCoA 图解释的问题,但我还没有找到任何关于是否可以基于解释较低方差的组件做出有意义的推断的讨论。

下图来自一篇比较不同时间孕妇肠道细菌的论文。每个点代表一个细菌群落。看起来 T1 样本在图的左侧聚集在一起,但是当分量方差分别只有8.9% 和 4.5% 时,这有意义吗?

在此处输入图像描述

我的第二个问题是,当这些模式在较低组件中不可见时,基于较高组件中可见的模式进行推断是否有意义。

Human Microbiome coursera 课程就是一个很好的例子。下图显示了细菌群落如何从不同的身体部位聚集在一起。在此示例中,阴道群落(以紫色显示)与皮肤群落(以绿色显示)聚集在一起。

在此处输入图像描述

但是,当您仅查看主成分 4 到 6 时,该社区似乎会自行聚集。当您在前几个没有获得单独的集群时,继续查看其他组件是否可以接受对我来说,这感觉就像你在寻找你想看到的结果。

在此处输入图像描述

我将非常感谢有关此主题的任何见解!以下是我在这里找到的并没有完全回答我的问题的相关主题:

资料来源:

1个回答

这类问题确实在 CV 上出现过多次(您必须浏览PCA clustering问题)。对您的问题的简短回答是肯定的,检查初级维度以搜索数据中的结构(例如集群)是有意义的。但为什么不呢?通常,解释大部分方差的高级组件与当前数据中的重要区别无关。我可以纵向切一条面包;那么该椭球的第一台 PC 不会显示两半,但 PC2 或 PC3 可能会显示它 - 双峰。

应该记住,降维方法(例如 PCA、PCoA)并非旨在找到集群或映射类的最佳方式。因此,它们不会取代聚类分析判别分析使用 PCA 或类似技术,您只能希望某些维度会为您揭示结构。

只是一个例子。这是相同的 2 类数据的两个散点图。一个显示在其上绘制的第一台 PC,另一个显示绘制的判别函数。单独的 PC1 或与之正交的其余部分 PC2 都不是双峰的。判别式在这方面要好得多,因为提取它的目的是为了捕捉两个类之间的差异。

分析逻辑传递到发现然后绘图结构将执行聚类分析(或潜在类分析)以形成类,然后使用判别分析(或者,也许,多维 INDSCAL 缩放)来绘制这些。然而,判别分析 (DA) 结果自然取决于类别。PCA/PCoA 结果不是——因为它们是无监督的,并且对数据中的非同质性视而不见。但这正是许多人宁愿尝试 PCA 而不是 DA 以可视化阶级区别的原因(或至少原因之一)。

你说,To me this feels like you are fishing for the results that you want to see这种担忧在多重统计显着性检验的背景下是相关的,而不是在探索性数据分析的当前背景下。是的,EDA 正在“钓鱼”寻找对您来说可能看起来不错的启示,这就是它的意义所在。另一方面,如果您更愿意将数据的初级维度视为噪声维度(而不是弱但实质性的维度),那么“钓鱼”的说法确实是合适的。PCA 本身不会将信号与噪声分开。如果维度在理论上类似于噪声或信号,则必须对维度进行统计分析,但这意味着对数据的假设;于是迎接恶性循环。但是,幸运的是,在样本量足够大的情况下,噪声维度可能会抖动真实的类别差异,而不是伪造它们。