数据集中应该有多少特征才能应用任何特征选择方法?

数据挖掘 时间序列 回归 特征选择 特征提取
2022-02-27 23:07:15

我正在研究一个时间序列回归问题,我有 10 个特征和 180 个观察值。我想了解要使用特征选择方法的数据集中的最少特征数是多少?

1个回答

对于初学者,您可以找到每列与输出列的相关性并选择高度相关的特征。这也将帮助您删除对学习权重和偏差没有贡献的特征。例如

df.corr()["quality"]

输出

fixed acidity           0.119024
volatile acidity       -0.395214
citric acid             0.228057
residual sugar          0.013640
chlorides              -0.130988
free sulfur dioxide    -0.050463
total sulfur dioxide   -0.177855
density                -0.184252
pH                     -0.055245
sulphates               0.248835
alcohol                 0.480343
quality                 1.000000
Name: quality, dtype: float64

上面的代码将给出输出标签与每一列的相关性。删除负相关的列以提高准确性。通过这样做,您还可以选择与输出标签高度相关的前 5 或 10 个特征,并将它们包含在您的模型。