我正在寻找一个可用于量化数据集中标签的不平衡程度的指标。
我不是在寻找解决不平衡问题的策略,我只是想展示我的数据集有多不平衡。我已经计算了最频繁和最不频繁标签的比率,这可能是一种不错的方法,但我确定有更强大的方法吗?
您正在寻找熵。熵越高,越不平衡。您可以使用此函数进行计算。
衡量不平衡的一个非常简单的方法是类别比例的标准差。
我建议将基尼指数作为衡量班级规模不平等的指标。与熵或标准差不同,基尼指数明确设计用于捕捉分布中的不平等程度。