标签不平衡的指标

数据挖掘 分类 阶级失衡
2021-09-26 01:10:45

我正在寻找一个可用于量化数据集中标签的不平衡程度的指标。

我不是在寻找解决不平衡问题的策略,我只是想展示我的数据集有多不平衡。我已经计算了最频繁和最不频繁标签的比率,这可能是一种不错的方法,但我确定有更强大的方法吗?

3个回答

您正在寻找熵。熵越高,越不平衡。您可以使用此函数进行计算。

衡量不平衡的一个非常简单的方法是类别比例的标准差。

  • 由于它基于比例,因此可以比较不同数据集之间的不平衡
  • 这考虑了所有的类,所以如果有很多类,它会给出不同的值,这取决于是否有许多小类和许多大类(总体上不平衡性较高)或是否只有一个异常类(总体上不平衡性较低)。

我建议将基尼指数作为衡量班级规模不平等的指标。与熵或标准差不同,基尼指数明确设计用于捕捉分布中的不平等程度。