我已经实现了一个预测模型。现在我正在检查是否应该将模型拆分为两个基于上下文的模型(男性和女性)。我创建了一个新的二进制特征,它只与女性组的一部分相关,它会影响该组的预测准确性。我没有很多数据,所以我不急于拆分为基于上下文的模型。我知道在这种情况下最好使用交互术语功能(womenxnewfeature),但此功能只是女性组的一部分,我听说添加该功能并不好。
关于我能做什么的任何建议?
我已经实现了一个预测模型。现在我正在检查是否应该将模型拆分为两个基于上下文的模型(男性和女性)。我创建了一个新的二进制特征,它只与女性组的一部分相关,它会影响该组的预测准确性。我没有很多数据,所以我不急于拆分为基于上下文的模型。我知道在这种情况下最好使用交互术语功能(womenxnewfeature),但此功能只是女性组的一部分,我听说添加该功能并不好。
关于我能做什么的任何建议?
如果您有性别数据,请使用它。你是对的,它可能是一个二进制虚拟特征(即,男性 = 0 或 1,依此类推)。您可以将性别直接用作预测特征,和/或将其与其他变量交互。您不需要按性别拆分数据集。添加任意信息会增加集合中的噪音并降低模型质量。但是您可以了解性别是否是任意的!添加性别并与没有性别的模型进行比较,看看是否有任何变化。