如何处理与目标相关性较低的两个高相关性特征

数据挖掘 特征选择 特征提取 特征工程 相关性
2022-02-23 21:42:12

我正在做房屋交易资金的预测。
这里是相关性大于0.3的特征的相关矩阵如下:

train_corr_full.unstack().sort_values(kind='quicksort', ascending=False).reset_index()
corr = corr[(corr['level_0'] != corr['level_1'])]
corr

    level_0             level_1              0
13  pv                  uv                   0.911879
14  uv                  pv                   0.911879
15  area                bathroom             0.721935
16  bathroom            area                 0.721935
17  area                tradeMoney           0.687447
18  tradeMoney          area                 0.687447
19  bathroom            tradeMoney           0.580745
20  tradeMoney          bathroom             0.580745
21  bathroom            room                 0.421762
22  room                bathroom             0.421762
23  remainNewNum        totalNewTradeMoney   0.417114
24  totalNewTradeMoney  remainNewNum         0.417114
25  buildYear           totalFloor           0.393571
26  totalFloor          buildYear            0.393571
27  remainNewNum        tradeMeanPrice       0.314611
28  tradeMeanPrice      remainNewNum         0.314611



corr[corr['level_0'] == 'tradeMoney']

    level_0     level_1             0
18  tradeMoney  area                0.687447
20  tradeMoney  bathroom            0.580745
34  tradeMoney  tradeMeanPrice      0.282720
45  tradeMoney  totalFloor          0.249755
47  tradeMoney  tradeNewMeanPrice   0.236713
55  tradeMoney  room                0.215041
79  tradeMoney  buildYear           0.123065
81  tradeMoney  totalTradeMoney     0.122407
95  tradeMoney  remainNewNum        0.100921
116 tradeMoney  pv                  0.072919
134 tradeMoney  uv                  0.040452
137 tradeMoney  totalNewTradeMoney  0.038420

功能描述:
面积:房子的面积。
room:这所房子的房间号。
浴室:这所房子的浴室号码。
totalFloor:该建筑物的总楼层数。
tradeMeanPrice:本月二手房成交均价。
tradeNewMeanPrice : 本月新房成交均价。
buildYear:这所房子的年龄。
totalTradeMoney:本月二手房成交总价。
totalNewTradeMoney : 本月新房成交总价。
剩余新号码: 本月未售出的房屋数量。
pv:租户浏览网站的次数。
uv:查看网站的租户数量。

它表明与目标具有高度相关性,pvuv两者与目标的相关性较低。
我之前所做的是,我会丢弃相关性低于 0.15 左右的特征,并在这些高相关性特征中做更多的 EDA 和特征工程。
即使考虑上下文,我也认为pvanduv不足以进行预测。

任何人都可以提供一些提示吗?
提前致谢。

1个回答

如果两个特征在一起具有很强的相关性,这可能意味着其中一个特征是多余的,并且可能建议将其从预测模型的特征列表中删除。

此外,如果与目标的相关性较低,那么您可能需要删除两者。

如何决定?

方法有很多,其中一种是特征选择过滤法,或者是FCBF等算法。

您在实施预测模型之前尝试了特征的相关性

另一种是 Wrapper 方法或 Embedded 方法,它将使用您的预测模型来决定选择哪些特征。