PCA(或其他降维方法)之后的特征重要性

数据挖掘 特征提取 主成分分析 降维 预测重要性
2022-03-15 22:18:12

我有文本数据,我对其进行了热编码,然后在其上使用了 PCA(尽管我也在尝试其他方法,LDA、NMF ..)。我使用降维的结果作为监督分类任务的输入。

现在我可以使用随机森林特征重要性或其他方法来获取受监督 cls 任务输入的特征重要性。然而,这些特征自然是没有意义的。我想知道哪些词对这个分类最重要。换句话说,以某种方式通过 PCA 将特征重要性分数传播回去。

有什么已知的方法可以做到吗?

1个回答

大多数 PCA 方法返回允许从组件转换为变量的线性变换矩阵,反之亦然。

不可能做的是将特征重要性从组件分配给变量(除非您愿意接受“特征重要性”可以线性分配的假设)。

如果你接受括号之间的想法,你可以有一个线性方程组Ax=b在哪里A是组件到变量的矩阵(大小组件逐个变量),b是特征重要性和x是结果(变量重要性)。

我给你的这个想法是我认为可行的,你可能不会在任何研究或类似的研究中找到它。