当所需特征是特征 some_feature_A/some_feature_B 时寻找特征的最佳组合的问题

数据挖掘 特征工程
2022-02-16 19:57:51

问题说明:我们有一个带有一个目标列的巨大 csv 文件,其余是输入,我们不知道这些特征会影响目标,但我们想使用算法,除了使用线性和非线性变换之外,还会考虑到这一点解决方案是 some_feature_A/some_feature_B。是否有算法可以考虑这种情况?一种方法是自己制作这些功能列,但有更好的方法吗?

1个回答

理论上,我认为深度神经网络可能能够找到其他两个列的产品特征。有一些很好的数学结果可以保证神经网络(具有某些激活函数)逼近任何函数的能力,因此神经网络无法计算除法函数话虽如此,如果没有一点预处理,在实践中可能很难实现。f(x,y)=xy

如果您想尝试一下,我建议添加通过对数据集中的任何数字特征取对数获得的附加特征。这可能使网络更容易学习其他特征的产物(因为)。log(xy)=logx+logylogx/y=logxlogy