我正在做房屋交易资金的预测。
这里是相关性大于0.3的特征的相关矩阵如下:
train_corr_full.unstack().sort_values(kind='quicksort', ascending=False).reset_index()
corr = corr[(corr['level_0'] != corr['level_1'])]
corr
level_0 level_1 0
13 pv uv 0.911879
14 uv pv 0.911879
15 area bathroom 0.721935
16 bathroom area 0.721935
17 area tradeMoney 0.687447
18 tradeMoney area 0.687447
19 bathroom tradeMoney 0.580745
20 tradeMoney bathroom 0.580745
21 bathroom room 0.421762
22 room bathroom 0.421762
23 remainNewNum totalNewTradeMoney 0.417114
24 totalNewTradeMoney remainNewNum 0.417114
25 buildYear totalFloor 0.393571
26 totalFloor buildYear 0.393571
27 remainNewNum tradeMeanPrice 0.314611
28 tradeMeanPrice remainNewNum 0.314611
corr[corr['level_0'] == 'tradeMoney']
level_0 level_1 0
18 tradeMoney area 0.687447
20 tradeMoney bathroom 0.580745
34 tradeMoney tradeMeanPrice 0.282720
45 tradeMoney totalFloor 0.249755
47 tradeMoney tradeNewMeanPrice 0.236713
55 tradeMoney room 0.215041
79 tradeMoney buildYear 0.123065
81 tradeMoney totalTradeMoney 0.122407
95 tradeMoney remainNewNum 0.100921
116 tradeMoney pv 0.072919
134 tradeMoney uv 0.040452
137 tradeMoney totalNewTradeMoney 0.038420
功能描述:
面积:房子的面积。
room:这所房子的房间号。
浴室:这所房子的浴室号码。
totalFloor:该建筑物的总楼层数。
tradeMeanPrice:本月二手房成交均价。
tradeNewMeanPrice : 本月新房成交均价。
buildYear:这所房子的年龄。
totalTradeMoney:本月二手房成交总价。
totalNewTradeMoney : 本月新房成交总价。
剩余新号码: 本月未售出的房屋数量。
pv:租户浏览网站的次数。
uv:查看网站的租户数量。
它表明与目标具有高度相关性,pv但uv两者与目标的相关性较低。
我之前所做的是,我会丢弃相关性低于 0.15 左右的特征,并在这些高相关性特征中做更多的 EDA 和特征工程。
即使考虑上下文,我也认为pvanduv不足以进行预测。
任何人都可以提供一些提示吗?
提前致谢。