我有一列有 5 个独特的类别。这些类别之间有一个层次结构(最好>好>好/不确定>坏>最差)
在这种情况下,我是否应该根据层次结构对它们进行标记,例如:
Best: 4
good: 3
OK/Not Sure: 2
Bad: 1
Worst: 0
或者我应该执行 one-hot 编码/虚拟编码?模型如何感知这两件事背后的直觉是什么?
注意:我还应该提到,这是使用逻辑回归进行预测建模。
我有一列有 5 个独特的类别。这些类别之间有一个层次结构(最好>好>好/不确定>坏>最差)
在这种情况下,我是否应该根据层次结构对它们进行标记,例如:
Best: 4
good: 3
OK/Not Sure: 2
Bad: 1
Worst: 0
或者我应该执行 one-hot 编码/虚拟编码?模型如何感知这两件事背后的直觉是什么?
注意:我还应该提到,这是使用逻辑回归进行预测建模。
应该在诸如花朵类型等独立值之间执行一种热编码。您提到的值是相对排名,其中差比最差等好。因此,除了将其转换为数值外,它不应该是一种热编码。