我有一个显示实例特征的功能。该特征可以存在也可以不存在。如果存在,它显示值的几乎正态分布(实际上有点向右倾斜,但通过对数变换,它变得标准化)。当实例中不存在该特征时,该特征的值仅为 0。
所以最后,我有一个分布,其中有很多值为 0 的实例,并且离它有点远,几乎是正态分布。我想将它分成两个不同的特征:一个显示特征的缺失/存在(简单),第二个仅显示正态分布,而没有在零附近出现恼人的峰值。
我有一个显示实例特征的功能。该特征可以存在也可以不存在。如果存在,它显示值的几乎正态分布(实际上有点向右倾斜,但通过对数变换,它变得标准化)。当实例中不存在该特征时,该特征的值仅为 0。
所以最后,我有一个分布,其中有很多值为 0 的实例,并且离它有点远,几乎是正态分布。我想将它分成两个不同的特征:一个显示特征的缺失/存在(简单),第二个仅显示正态分布,而没有在零附近出现恼人的峰值。
你不提供答案吗?您可以将特征一分为二,即,如果feature_to_split是您正在谈论的特征,您可以feature_to_split_ispresent根据该特定特征的存在与否创建取 1 或 0 的特征,以及feature_to_split_value取实际值的那个特征。
我对此没有确切的答案,因为这取决于您要如何处理这些数据。假设您的任务是监督学习,因为它是最受欢迎的,只需提取该特征就足以让模型区分不同的情况。
编辑:
线性回归或 NN 等模型在正态状态下效果更好;在这种情况下,我会尝试以下选项: