如果分类变量有一些层次结构,我应该只标记它们还是拆分为虚拟变量(One-Hot 编码)?

数据挖掘 机器学习 数据清理 逻辑回归 特征工程
2022-02-22 21:11:45

我有一列有 5 个独特的类别。这些类别之间有一个层次结构(最好>好>好/不确定>坏>最差)

在这种情况下,我是否应该根据层次结构对它们进行标记,例如:

Best: 4

good: 3

OK/Not Sure: 2

Bad: 1

Worst: 0

或者我应该执行 one-hot 编码/虚拟编码?模型如何感知这两件事背后的直觉是什么?

注意:我还应该提到,这是使用逻辑回归进行预测建模。

1个回答

应该在诸如花朵类型等独立值之间执行一种热编码。您提到的值是相对排名,其中差比最差等好。因此,除了将其转换为数值外,它不应该是一种热编码。