特征选择方法说明

数据挖掘 特征选择 特征工程 相关性 matlab
2022-03-04 19:48:07

在特征相关性的背景下,我试图理解相关性方法对特征选择的意义。如果出现以下相关系数的结果,有人可以解释一下,那么我应该采用该特征吗?规则是选择 corrcoeff 值大于 0.5 的特征。如有错误请指正。我计算的方式是使用 Matlab 的corrcoeff(target,feature)wheretargetfeatureare 向量

Case1 : corrcoeff 返回 NaN 值 --

Nan Nan
Nan  1

由于值大于 0.5,是否应该选择特征?

Case2:corrcoeff 返回 0 个值

0 0
0  1

在这种情况下,我应该拒绝该功能。

案例3

-0.3 0
0    -0.3

负相关但绝对值小于 0.5,因此拒绝该特征

案例4:如果根本没有线性关系怎么办,在这种情况下corrcoeff将不起作用。我如何知道是否存在线性关系,在这种情况下如何进行特征选择;还有其他功能或技术吗?

1个回答

这个想法很简单:如果您发现与目标变量相关但彼此不相关的特征,它将为您提供可以预测目标变量的信息。

阈值 0.5 由人选择,应根据您的数据进行更改。例如,如果您发现 10 个彼此不相关但与标准普尔 500 指数的绝对相关系数均为 0.3 的特征,那么您会发现股市相当于圣杯。

此外,正如您已经提到的,相关系数仅捕获线性相关性这可能会导致您排除强相关的特征,因为它们与您的目标变量具有更复杂的关系。

因此,我强烈建议不要使用这种方法。相反,我建议在pairplots中绘制数据。