我正在检查Kaggles Titanic问题,一个共同的特征处理是与Parch(父母的数量)和Sibsp(兄弟姐妹/配偶的数量)一起玩。
首先,他们来了就接受。
然后他们将两者混合在
TotalFamily(Sibsp + Parch)中最后,他们将分类变量转换
TotalFamily为二进制变量TravelsAlone(TotalFamily = 0)
这似乎提高了性能,我试图理解为什么:
- 一个变量比两个好?我们这样做不是失去关系吗?
- 是因为二进制变量比分类变量更好吗?
- 无论选择何种算法(集成、支持向量机等),这些都是好的经验法则吗?
正如我所说,请避免“自己检查并查看”答案,在看到很多人进行相同的转换后,我认为某处有一个经验法则,我正在努力寻找它。