数据挖掘 - 如何决定使用什么阈值来删除低方差特征？ - 吾爱随笔录

数据挖掘方差

2021-09-21 06:08:50

如何决定使用什么阈值来删除低方差特征？

特别是，我有 100000 个特征，差异看起来像：

我可以例如取平均值并用它来将其分成〜一半吗？

还是其他一些分组方法？

1个回答

您可以通过以下几种方式做到这一点，我可以按工作量的升序列出：

然而，对于这些方法总体上是否是最优的，存在一些争论。在 Cross-Validated上查看有关此线程的一些讨论。如果来自编写上述 Caret 包的人的书 - Max Kuhn，则该线程中的 OP 引用。

反对这种方法的论据说，您可能正在移动变量，尽管它们的方差很小，但实际上可能在解释您的目标（因）变量方面非常强大。

我可以建议的最后一种方法进入协方差领域，即查看变量对之间的共线性。我过去做过这件事，对我来说效果很好。基本算法看起来像这样：

这是 Scikit-Learn 类，它可以为你做基本的方差阈值 - 还有一个简短的教程。他们还提出了一些进行递归特征选择的方法，本质上类似于我上面概述的最终方法。

其它你可能感兴趣的问题