我正在研究一个时间序列回归问题,我有 10 个特征和 180 个观察值。我想了解要使用特征选择方法的数据集中的最少特征数是多少?
数据集中应该有多少特征才能应用任何特征选择方法?
数据挖掘
时间序列
回归
特征选择
特征提取
2022-02-27 23:07:15
1个回答
对于初学者,您可以找到每列与输出列的相关性并选择高度相关的特征。这也将帮助您删除对学习权重和偏差没有贡献的特征。例如
df.corr()["quality"]
输出
fixed acidity 0.119024
volatile acidity -0.395214
citric acid 0.228057
residual sugar 0.013640
chlorides -0.130988
free sulfur dioxide -0.050463
total sulfur dioxide -0.177855
density -0.184252
pH -0.055245
sulphates 0.248835
alcohol 0.480343
quality 1.000000
Name: quality, dtype: float64
上面的代码将给出输出标签与每一列的相关性。删除负相关的列以提高准确性。通过这样做,您还可以选择与输出标签高度相关的前 5 或 10 个特征,并将它们包含在您的模型。
其它你可能感兴趣的问题