换句话说,我希望预测学生在失学之前会失学。数据包括社会经济地位和其他相关变量。
我已经尝试过 XGB 二进制分类(树和森林),但问题是它不会惩罚严重错误的答案(预测学生的成绩将在最低 3%,但他们实际上是 A+学生们)。结果是预测学生的平均成绩相当低,但中位数成绩实际上并没有那么差——有一些非常差的学生拉低了平均成绩,但没有降低中位数。
我尝试过 XGB 回归(树和森林),但问题是我无法让模型专注于底部的 3%。它旨在减少所有预测的错误。我不在乎区分 A 学生和 B 学生之间的区别,我只需要始终识别底部的 3%ile。
我在想也许这可以用于强化学习而不是监督,但我对强化一无所知......是否有可能建立一个强化模型,其目标是最小化预测的 3% 学生的中位数? 或者是否有任何其他机器学习技术可行?