我需要使用问卷中的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(只是一个例子)我想根据以下问题预测一个人是否会买房:
1) What is your gender?
[] male
[x] female
[] I prefer not to answer
如果答案是女性(如上例所示),则询问子问题
1_female) are you pregnant?
[x] yes
[] no
然后问卷继续..
我应该如何使用这些功能来训练我的模型?
选项 1) 分别处理它们并用 one-hot-encoding 转换它们然后我将拥有特征向量
gender_male - gender_female - gender_not_answered - pregnant_empty - pregnant_yes - pregnant_no
0 - 1 - 0 - 0 - 1 - 0
显然,对于所有男性,特征怀孕_empty 将被编码为 1
选项 2) 合并 2 个答案并对连接进行编码
gender_female_pregnant_yes - gender_female_pregnant_not - gender_male - gender_not_answered
1 - 0 - 0 - 0
其他选择?
请将此仅作为示例...问题是在真实情况下
- 嵌套问题可能会出现 2 个或更多答案
- 扩展选项 2 中的功能将使我的特征向量爆炸..
我希望我的问题足够清楚