数据挖掘 - 特征问题（正态分布 + 0 附近的峰值） - 吾爱随笔录

数据挖掘数据清理特征工程特征提取特征构造

2022-02-25 06:36:49

我有一个显示实例特征的功能。该特征可以存在也可以不存在。如果存在，它显示值的几乎正态分布（实际上有点向右倾斜，但通过对数变换，它变得标准化）。当实例中不存在该特征时，该特征的值仅为 0。

所以最后，我有一个分布，其中有很多值为 0 的实例，并且离它有点远，几乎是正态分布。我想将它分成两个不同的特征：一个显示特征的缺失/存在（简单），第二个仅显示正态分布，而没有在零附近出现恼人的峰值。

2个回答

你不提供答案吗？您可以将特征一分为二，即，如果feature_to_split是您正在谈论的特征，您可以feature_to_split_ispresent根据该特定特征的存在与否创建取 1 或 0 的特征，以及feature_to_split_value取实际值的那个特征。

我对此没有确切的答案，因为这取决于您要如何处理这些数据。假设您的任务是监督学习，因为它是最受欢迎的，只需提取该特征就足以让模型区分不同的情况。

编辑：

线性回归或 NN 等模型在正态状态下效果更好；在这种情况下，我会尝试以下选项：

其它你可能感兴趣的问题