我正在尝试执行特征选择。目前使用基于树的分类器,即使是随机生成的列也高于我的一些真实列。所以我正在阅读关于PFI. 有人可以帮我理解要遵循的步骤吗?
1) 将我的数据保存在 csv 文件中
2)填写缺失值/清理/准备数据
3) 将数据拆分为训练和测试
4) 标准化训练和测试数据
5)选择一个模型(比如说逻辑回归)
6) 将训练数据拟合到 logreg 模型
7) 使用输入测试数据进行预测
我为我的模型提供了以下代码
logreg=LogisticRegression() # step 5
logreg_cv.fit(X_train_std,y_train) # step 6
y_pred = logreg_cv.predict(X_test_std) # step 7
如果您能以菜鸟可以理解的方式进行解释,那将真的很有帮助。我是 ML 新手,所以它真的很有帮助
PFI这里适合哪里?我看到我们有eli5包,但还没有找到一个例子。
更新 - 建议解决方案后我的代码
logreg=LogisticRegression()
pi=PermutationImportance(logreg, cv=2).fit(X_train_std,y_train) # error is in this line.
rfe=RFECV(pi, step=1, n_jobs=-1, cv=5, scoring="auc").fit(X_train_std,y)
y_pred = rfe.predict(X_test_std)