从调查中提取特征

数据挖掘 机器学习 分类 数据清理 特征提取 特征工程
2022-02-10 02:19:44

我需要使用问卷中的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(只是一个例子)我想根据以下问题预测一个人是否会买房:

1) What is your gender?
[] male
[x] female
[] I prefer not to answer

如果答案是女性(如上例所示),则询问子问题

1_female) are you pregnant?
[x] yes
[] no

然后问卷继续..

我应该如何使用这些功能来训练我的模型?

选项 1) 分别处理它们并用 one-hot-encoding 转换它们然后我将拥有特征向量

gender_male - gender_female - gender_not_answered - pregnant_empty - pregnant_yes - pregnant_no
     0      -        1      -         0           -        0       -       1      -        0

显然,对于所有男性,特征怀孕_empty 将被编码为 1

选项 2) 合并 2 个答案并对连接进行编码

gender_female_pregnant_yes - gender_female_pregnant_not - gender_male - gender_not_answered
     1                     -                 0          -      0      -     0

其他选择?

请将此仅作为示例...问题是在真实情况下

  • 嵌套问题可能会出现 2 个或更多答案
  • 扩展选项 2 中的功能将使我的特征向量爆炸..

我希望我的问题足够清楚

1个回答

最简单的方法是将您的功能分开并添加一个合成功能,功能交叉,它捕获您提到的可能嵌套的那些功能之间的关系。

例如,在基于神经元网络的分类器(例如,TensorFlow)中,模型将学习那些不可能发生的特征值组合(例如,男性和怀孕)的“正确”权重,明显排除错误的数据案例。

最后......您只需要“跨越”的功能中的笛卡尔积。是的,你的载体会增长。