我正在寻找一个可以很好地处理不平衡和有序多类数据集的 ML 评估指标:
想象一下,您想预测具有 4 个严重程度的疾病的严重程度,其中 1 表示轻度,4 表示更差的结果。现在,这个数据集实际上将有绝大多数患者在温和区(1 或 2 类),而在 3 和 4 类中则更少。(不平衡/偏斜数据集)。
现在在示例中,将 4 级预测为 1 级的分类器应该比将 4 级预测为 3 级等的分类器受到更多的惩罚(序数类)。
如果我使用 MCC、Cohen's K 等。我将能够解释数据集中的不平衡,但不能解释其类的序数性质。您是否知道是否有一个指标可以同时考虑两者,或者是否有办法修改/组合指标以便将数据集的两个方面都考虑在内?(如果可能的话,可以使用 Python,但也可以使用其他语言或数学解释)