我一直在从多种资源中学习决策树,但仍未完全理解数据预处理步骤。
来自https://www.youtube.com/watch?v=PHxYNGo8NcI&t=535s&ab_channel=codebasics它使用带有标签编码器的决策树,在另一个资源中它说我们不需要将类别转换为字符串,我很困惑。
鉴于我的数据看起来像
gender level score
male 1 34
female 2 77
female 1 44
如果我们使用标签编码器,我们只需要转换性别,但是如果映射男性 = 0,女性 = 1,机器不会处理女性 > 男性吗?如果它忽略序数,它将忽略 level1 < level2 并认为 level 1 和 level 2 是同一级别,这是不正确的。
什么是正确的预处理步骤,为什么?