机器学习中方差的重要性

数据挖掘 机器学习 Python 无监督学习 方差
2022-02-25 01:32:38

从 Dataframe 中选择一列,使用 matplotlib 绘制其直方图,然后找到方差是我在项目的这一部分中必须采取的步骤。

该项目的最终目标是检测数据中的异常。

我了解以图表的形式绘制数据以更好地理解它的部分。另一方面,我不确定为什么找到该列的方差如此重要。

如果我能得到任何有关这方面的信息,我将不胜感激。

我知道方差的定义,但似乎无法理解它在这个项目中的用法和重要性。

2个回答

特征的方差(定义为与均值的平方差的平均值)在机器学习中很重要,因为方差会影响模型使用该特征的能力。

例如,如果特征没有方差(例如,不是随机变量),则该特征没有能力对任务性能做出贡献。对于目标的不同级别,零方差特征将是恒定的。

此外,一些机器学习模型对特征的分布做出了强有力的假设。方差是检查分布假设的一种方法。

数据集中存在方差非常重要,因为这将使模型能够了解隐藏在数据中的不同模式。

但是您的模型不能有可能导致模型过度拟合的高方差。所以需要保持平衡。

阅读有关偏差-方差权衡的信息 -链接