我必须建立一个预测模型,以根据其他一些数字数据预测布尔赢/输变量;并进一步找出“获胜”的观察特征。
但是,我的数据集中“赢”的数量是 0.05%。我已经尝试过过采样和下采样,但它没有奏效。即使我采用等量的“赢”和“输”,该模型对于其余的“输”值也不准确。我也尝试过举重,但效果不佳。理想情况下,我认为我必须为“赢”赋予很高的权重。
PS:使用RandomForestClassifier,用混淆矩阵来验证。
我不热衷于尝试 SMOTE,因为我听说它在 Python 中很难。
所以现在我正试图以不同的方式看待它,并对“获胜”案例进行异常检测,因为数据中的“获胜”案例如此之少是很自然的。所以,两个问题
- 这是一个正确的方法吗?
- 如何使用 Python 进行操作?