特征问题(正态分布 + 0 附近的峰值)

数据挖掘 数据清理 特征工程 特征提取 特征构造
2022-02-25 06:36:49

我有一个显示实例特征的功能。该特征可以存在也可以不存在。如果存在,它显示值的几乎正态分布(实际上有点向右倾斜,但通过对数变换,它变得标准化)。当实例中不存在该特征时,该特征的值仅为 0。

所以最后,我有一个分布,其中有很多值为 0 的实例,并且离它有点远,几乎是正态分布。我想将它分成两个不同的特征:一个显示特征的缺失/存在(简单),第二个仅显示正态分布,而没有在零附近出现恼人的峰值。

2个回答

你不提供答案吗?您可以将特征一分为二,即,如果feature_to_split是您正在谈论的特征,您可以feature_to_split_ispresent根据该特定特征的存在与否创建取 1 或 0 的特征,以及feature_to_split_value取实际值的那个特征。

我对此没有确切的答案,因为这取决于您要如何处理这些数据。假设您的任务是监督学习,因为它是最受欢迎的,只需提取该特征就足以让模型区分不同的情况。

编辑:

线性回归或 NN 等模型在正态状态下效果更好;在这种情况下,我会尝试以下选项:

  1. 保留 0 因为 0 * w = 0 所以会影响微积分但仍然是偏差项
  2. 将 0 替换为非零点的平均值,这样您的分布将是正常的
  3. 使用标准化将非零点分布缩放到 N(0, 1)
  4. 做 2) 然后 3)