我有一个只有 8 列的数据:
- ID
- 创建时间
- 员工ID
- 排名位置
- 每小时价格
- num_work_completed
- 工作类别
- 雇用
Hired 是目标变量,1 表示已录用,0 表示未录用,它与 5.7% 已录用 (1) 不平衡,这使得基线准确度为 94.3% 我正在尝试构建预测员工是否会被录用的模型。在我完成 EDA、特征工程(处理 NA、编码分类变量、标准化数值变量)后,我使用 80/20 作为分割规则,并使用 rank_position、hourly_price、num_work_completed、work_category_dummy 构建随机森林
clf=RandomForestClassifier(n_estimators=100,class_weight=balanced)
clf.fit(X_train,y_train)
y_pred=clf.predict(X_test)
然而,模型的准确度(测试准确度)为 93%,而基线为 94.3%。
训练准确率为 99%。与测试准确率 94.3% 相比,我认为没有过拟合问题逻辑回归也有同样的问题。基于相关印迹,大多数自变量与小于 +/- 0.3 的目标变量的关系非常弱。接下来我应该做什么来提高我的模型准确性?我尝试了参数调整,但没有太大帮助。